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在 人 工 智 能 界 有 一 种 说 法 , 认为 机 器 学 习 是 人 工 智 能 领域 中 最 能 够 体现 智能 的 一 个 分 文 . 从 历史 
来 看 , 机 器 学 习 似 乎 也 是 人 工 智 能 中 发 展 最 快 的 分 支 之 一 . 在 二 十 世纪 八 十 年 代 的 时 候 , 符号 学 习 可 
能 还 是 机 融 竺 习 的 主流 , 而 目 从 二 十 世纪 九 十 年 代 以 来 , Bi Be Sr Alas A MOR OS. 不 知道 是 
否 可 以 这 样 认 为 : 从 主流 为 符号 机 器 和 学习 发 展 到 主流 为 统计 机 器 和 学习 , 反映 了 机 器 学 习 从 纯 炽 的 理论 
研究 和 模型 研究 发 展 到 以 解决 现实 生活 中 实际 问题 为 目的 的 应 用 研究 , 这 是 科学 研究 的 一 种 进步 . 有 
关机 器 学 习 的 专车 国内 出 版 的 不 是 很 多 . 前 两 年 有 李 航 教授 的 《统计 学 习 方 法 》 出 版 , 以 简要 的 方式 
介绍 了 一 批 重 要 和 常用 的 机 器 学 习 方法 . 此 次 周志 华 教授 的 渔 篇 巨著 《机 器 学 习 》 则 全 面 而 详细 地 介 
绍 了 机 器 学 习 的 各 个 分 文 , 既 可 作为 教材 , 义 可 作为 自学 用 书 和 科研 参考 书 . 

翻阅 书稿 的 过 程 引 起 了 一 些 目 己 的 思考 , 平时 由 于 和 机 棍 学习 界 的 朋友 接触 多 了 , 经 弟 获 得 一 些 
道听途说 的 信息 以 及 专家 们 对 机 器 学 习 现 状 及 其 发 展 前 途 的 评论 . 在 此 过 程 中 , 难免 会 产生 一 些 自己 
的 疑问 . 我 借 此 机 会 把 它 写 下 来 放 在 这 里 , 算是 一 种 “外 行 求教 机 器 学 习 ”. 

问题 一 : EA ATEHERE, 机 器 和 学习 的 技术 内 遂 几 乎 全 部 是 符号 学 习 . 可 是 从 二 十 世纪 九 十 
年 代 开 始 , 统计 机 融和 学 习 狐 如 一 匹 黑马 横 衬 出 世 , 迅速 压倒 并 取代 了 符号 学 习 的 地 位 人们 可 能 会 问 : 
在 满目 的 统计 学 习 期 刊 和 会 议 文 章 面前 , 符号 学 习 是 否 被 彻底 忽略 了 ? 它 还 能 成 为 机 器 学 习 的 研究 对 
BMG? 它 是 否 将 继续 在 统计 学 习 的 阴影 里 生活 并 苟 延 残 跨 ? 对 这 个 问题 有 三 种 可 能 的 答案 : 一 是 告诉 
符号 学 习 :“ 你 就 是 该 退出 历史 舞台 , 认命 吧 !” 二 是 告诉 统计 学 习 :“ 你 的 一 言 筷 应 该 关门 了 !” 单 纯 
的 统计 等 习 已 经 走 到 了 尽头 , 再 想 往 前 走 就 要 把 统计 竺 习 和 符号 竺 习 结 合 起 来 . 三 是 事物 上 及 展 总 会 有 

“三 十 年 河东 , 三 十 年 河西 ”的 现象 , 符号 学 习 还 有 “ 翻 喘 ”的 日 子 . 第 一 种 观 后 我 没有 昕 人 明说 过 ， 
但 是 我 想 恐 怕 有 可 能 已 经 被 许多 人 默认 了 . 第 二 种 观点 我 曾 听 王 球 教授 多 次 说 过 . 他 并 不 认为 统计 学 
习 会 衰退 , 而 只 是 认为 机 器 学 习 已 经 到 了 一 个 转折 点 , 从 今 往 后 , 统计 学 习 应 该 和 知识 的 利用 相 结 合 ， 
xe “WR ETL EFT, 进入 更 局 级 的 形式 ”, 否则 , 统计 笠 习 可 能 会 停留 于 现状 而 止步 不 前 . SEER AL 
授 还 认为 : BEART AN teas WE Koller 等 的 《概率 图 模型 》 一 书 的 出 版 . 至 于 第 三 种 观点 , 恰好 我 
收 到 老 朋 友 , 美国 人 工 知 能 资深 学 者 、 俄 辫 俄 大 学 Chandrasekaran 教授 的 来 信 , 他 正好 谈 起 符号 智能 
被 统计 管 能 “打压 ”的 现象 , 并 且 正 好 表达 了 河东 河西 的 观点 . 我 请 求 他 允许 我 把 这 段 话 引进 正在 所 
写 的 序言 中 , 他 丈 快 地 同意 了 , 仅仅 修改 了 儿 处 私人 通信 的 口吻 . 全 文 如 下 :“ 最 近 几 年 , 人 工 智 能 在 
很 大 程度 上 集中 于 统计 季 和 大 数据 . 我 同意 由 于 计算 能 力 的 大 幅 提 高 , 这 些 拉 术 曾 经 取得 过 茶 些 令 
人 印象 深刻 的 成 果 . 但 是 我 们 完全 有 理由 相信 , 虽然 这 些 技术 还 会 继续 改进 、 提 局 , 总 有 一 天 这 个 领 
域 ( 指 AT) 会 对 它们 说 再 见 , 并 转 问 更 加 基本 的 认 知 科学 研究 . 尽管 钟 摆 的 摆 回 去 还 需要 一 段 时 间 , 我 
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相信 定 有 必要 把 统计 技术 和 对 认 知 结构 的 深刻 理解 结合 起 来 .” 看 来 ,' Chandrasekaran 教授 也 并 不 认 
为 若干 年 以 后 AI 真 会 回 到 河西 , 他 的 意见 和 王 球 教授 的 意见 基本 一 致 , 但 不 仅 限 于 机 器 学 习 , 而 是 涉 
帮 整 个 人 工 智 能 领域 . 只 是 王 于 教授 强调 知识 , 而 Chandrasekaran 教授 旺 调 更 加 基本 的 “ 认 知 ”. 


问题 二 : 王 球 教授 认为 统计 机 器 学 习 不 会 “一 路 顺风 ”的 判 据 是 : 统计 机 器 学 习 算法 都 是 基于 样 
本 数据 独立 同 分 布 的 假设 . 但 是 自然 界 现象 千变万化 , 王 球 教 授 认为 “ 哪 有 那么 多 独立 同 分 布 ?” 这 
就 引 来 了 下 一 个 问题 : “独立 同 分 布 ”条 件 对 于 机 器 学 习 来 讲 真是 必需 的 吗 ? 独立 同 分 布 的 不 存在 一 
定 是 一 个 不 可 逾越 的 障碍 吗 ? 无 独立 同 分 布 条 件 下 的 机 器 学 习 也 许 只 是 一 个 难题 , 而 不 是 不 可 解 问 
题 . 我 有 一 个 “胡思乱想 ”, 认为 前 些 时 候 出 现 的 “迁移 学 习 ”也 许 会 对 这 个 问题 的 解决 带 来 一 线 曙 
光 . 尽管 现在 的 迁移 学 习 还 要 求 迁移 双方 具备 “独立 同 分 布 ”条 件 , 但 是 不 同 分 布 之 间 的 迁移 学 习 ， 
同 分 布 和 异 分 布 之 间 的 迁移 学 习 也 许 迟 早 会 出 现 ? 

问题 三 : 近年 来 出 现 了 一 些 新 的 动向 , 例如 “深度 学 习 ”、“ 无 终止 学 习 ”等 等 , 社会 上 给 予 了 
特别 关注 , 尤其 是 深度 学 习 . 但 它们 真 的 代表 了 机 器 学 习 的 新 的 方向 吗 ? 包括 本 书 作者 周志 华 教授 在 
内 的 一 些 学 者 认为 : 深度 学 习 掀起 的 热潮 也 许 大 过 它 本 身 真正 的 贡献 , 在 理论 和 技术 上 并 没有 太 多 的 
创新 , 只 不 过 是 由 于 硬件 技术 的 革命 , 计算 机 的 速度 大 大 提高 了 , 使 得 人 们 有 可 能 采用 原来 复杂 度 很 
高 的 算法 , 从 而 得 到 比 过 去 更 精细 的 结果 . 当然 这 对 于 推动 机 器 学 习 应 用 于 实践 有 很 大 意义 . 但 我 们 
不 禁 要 斗 胆 问 一 句 : 深度 学 习 是 否 又 要 取代 统计 学 习 了 ? 事实 上 , 确 有 专家 已 经 感受 到 来 自 深度 学 习 
的 压力 , 指出 统计 学 习 正 在 被 深度 学 习 所 打压 , 正如 我 们 早 就 看 到 的 符号 学 习 被 统计 学 习 所 打压 . 不 
过 我 觉得 这 种 打压 还 远 没有 强大 到 像 统计 学 习 打 压 符号 学 习 的 程度 . 这 一 是 因为 深度 学 习 的 “理论 创 
新 ”还 不 明显 ; 二 是 因为 目前 的 深度 学 习 主要 适合 于 神经 网 络 , 在 各 种 机 器 学 习 方法 百花 盛开 的 今天 ， 
它 的 应 用 范围 还 有 限 , 还 不 能 直接 说 是 连接 主义 方法 的 回归 ; 三 是 因为 统计 学 习 仍然 在 机 器 学 习 中 被 
有 效 地 普遍 采用 , “得 道 多 助 ”, 想 抛弃 它 不 容易 . 

问题 四 : 机 器 学 习 研 究 出 现 以 来 ,我 们 看 到 的 主要 是 从 符号 方法 到 统计 方法 的 演变 , 用 到 的 数学 主 
要 是 概率 统计 . 但 是 , 数学 之 大 , 就 像 大 海 . 难道 只 有 统计 方法 适合 于 在 机 器 学 习 方面 应 用 吗 ? 当然 
我 们 也 看 到 了 一 些 其 他 数学 分 支 在 机 器 学 习 上 的 应 用 的 好 例子 , 例如 微分 几何 在 流 形 学 习 上 的 应 用 ， 
微分 方程 在 归纳 学 习 上 的 应 用 . 但 如 果 和 统计 方法 相 比 , 它们 都 只 能 算是 配角 . 还 有 的 数学 分 支 如 代 
数 可 能 应 用 得 更 广 , 但 在 机 器 学 习 中 代数 一 般 是 作为 基础 工具 来 使 用 , 例如 和 矩阵 理论 和 特征 值 理论 . 
又 如 微分 方程 求解 最 终 往往 归结 为 代数 问题 求解 . 它们 可 以 算是 幕后 英雄 :“ 出 头 露 面 的 是 概率 和 统 
计 , 埋头 苦 干 的 是 代数 和 逻辑 ”. 是 否 可 以 想象 以 数学 方法 为 主角 , 以 统计 方法 为 配角 的 机 器 学 习 理 
论 呢 ? 在 这 方面 , 流 形 学 习 已 经 “有 点 意思 ”了 , 而 彭 实 戈 院士 的 倒 排 随机 微分 方程 理论 之 预测 金融 
走势 , 也 许 是 用 高 深 数 学 推动 新 的 机 器 学 习 模式 的 更 好 例子 . 但 是 从 宏观 的 角度 看 , 数学 理论 的 介入 
程度 还 远 远 不 够 . 这 里 指 的 主要 是 深刻 的 、 现 代 的 数学 理论 , 我 们 期 待 着 有 更 多 数学 家 的 参与 , 开辟 
机 器 学 习 的 新 模式 、 新 理论 、 新 方向 . 
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问题 五 : 上 一 个 问题 的 延续 : 符号 机 器 学 习 时 代 主 要 以 离散 方法 处 理 问题 , 统计 机 器 学 习 时 代 主 
要 以 连续 方法 处 理 问题 . 这 两 种 方法 之 间 应 该 没有 一 条 鸿沟 . 流 形 学 习 中 李 群 、 李 代数 方法 的 引入 给 
我 们 以 很 好 的 启示 . 从 微分 流 形 到 李 群 , 再 从 李 群 到 李 代数 , 就 是 一 个 沟通 连续 和 离散 的 过 程 . 然而， 
现 有 的 方法 在 数学 上 并 不 完美 . 浏览 流 形 学 习 的 文献 可 知 , 许多 论文 直接 把 任意 数据 集 看 成 微分 流 形 ， 
从 而 就 认定 测 地 线 的 存在 并 讨论 起 降 维 来 了 . 这 样 的 例子 也 许 不 是 个 别 的 , 足 可 说 明 数 学 家 介入 机 器 
学 习 研 究 之 必要 . 

问题 六 : 大 数据 时 代 的 出 现 , 有 没有 给 机 器 学 习 带 来 本 质 性 的 影响 ? 理论 上 讲 , 似乎 “大 数据 ”给 
统计 机 器 学 习 提 供 了 更 多 的 机 遇 , 因为 海量 的 数据 更 加 需要 统计 、 抽 样 的 方法 . 业界 人 士 估计 , 大 数 
据 的 出 现 将 使 人 工 智 能 的 作用 更 加 突出 . 有 人 把 大 数据 处 理 分 成 三 个 阶段 : 收集 、 分 析 和 预测 . 收集 
和 分 析 的 工作 相对 来 说 已 经 做 得 相当 好 了 , 现在 关注 的 焦点 是 要 有 科学 的 预测 , 机 器 学 习 技术 在 这 里 
不 可 或 缺 . 这 一 点 大 概 考 庸 置 疑 . 然而 , 同样 是 使 用 统计 、 抽 样 方法 , 同样 是 收集 、 分 析 和 预测 , 大 数 
据 时 代 使 用 这 类 方法 和 以 前 使 用 这 类 方法 有 什么 本 质 的 不 同 吗 ? 量变 到 质变 是 辩证 法 的 一 个 普遍 规 
律 . 那么 , 从 前 大 数据 时 代 到 大 数据 时 代 , 数理 统计 方法 有 没有 发 生 本 质 的 变化 ? 反映 到 它们 在 机 器 学 
习 上 的 应 用 有 无 本 质变 化 ? 大 数据 时 代 正在 呼唤 什么 样 的 机 器 学 习 方法 的 产生 ? 哪些 机 器 学 习 方 法 
又 是 由 于 大 数据 研究 的 驱动 而 产生 的 呢 ? 

以 上 这 些 话 也 许 说 得 远 了 , 我 们 还 是 回 到 本 书 上 来 . 本 书 的 作者 周志 华 教授 在 机 器 学 习 的 许多 领 
域 都 有 出 色 的 贡献 , 是 中 国 机 器 学 习 研 究 的 领军 人 物 之 一 , 在 国际 学 术 界 有 着 很 高 的 声誉 . 他 在 机 器 
学 习 的 一 些 重要 领域 , 例如 集成 学 习 、 半 监督 学 习 、 多 示例 和 多 标记 学 习 等 方面 都 做 出 了 在 国际 上 有 
重要 影响 的 工作 , 其 中 一 些 可 以 认为 是 中 国学 者 在 国际 上 的 代表 性 贡献 . 除了 自身 的 学 术 研究 以 外 ， 
他 在 推动 中 国 的 机 器 学 习 发 展 方面 也 做 了 许多 工作 . 例如 他 和 不 久 前 刚 过 世 的 王 球 教 授 从 2002 年 开 
始 , 组 织 了 系列 化 的 “机 器 学 习 及 其 应 用 ”研讨 会 . 初 在 复旦 , 后 移 至 南大 举行 , 越 办 越 兴旺 , 从 单一 
的 专家 报告 发 展 到 专家 报告 、 学 生 论坛 和 张贴 论文 三 种 方式 同时 举行 , 参 会 者 从 数 十 人 发 展 到 数 百 
A, 活动 搞 得 有 声 有 色 , 如 火 如 蔡 . 最 近 更 是 把 研讨 会 推 向 全 国 高 校 轮流 举行 . 他 和 王 球 教授 紧密 合 
作 , 南北 呼应 , 人 称 “ 南 周 北 王 ”. 王 球 教 授 的 离 去 使 我 们 深 感 翡 伤 . 令 我 们 欣慰 的 是 国内 不 但 有 周志 
华 教授 这 样 的 机 器 学 习 领 军人 物 , 而 且 比 周 教授 更 年 轻 的 许多 机 器 学 习 青 年 才 俊 也 成 长 起 来 了 . 中 国 
的 机 器 学 习 大 有 希望 . 


人 
tH. VA V5 
中 国 科 学 院 数 学 与 系统 科学 研究 院 
2015 年 8 月 于 北京 
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这 是 一 本 面 问 中 文 读者 的 机 器 学 习 教科 书 , 为 了 使 尽 可 能 多 的 读者 通过 本 书 对 机 器 学 习 有 所 了 
解 , 作者 试图 尽 可 能 少 地 使 用 数学 知识 . 然而 , 少量 的 概率 、 统 计 、 人 代数 、 人 优化、 还 辑 知识 似乎 不 可 
m. 因此 , 本 书 更 适合 大 学 三 年 级 以 上 的 理工 科 本 科 生 和 研究 生 , 以 及 具有 类 似 背 景 的 对 机 器 学 习 
感 兴趣 的 人 士 . 为 方便 读者 , 本 书 附录 给 出 了 一 些 相 关 数 学 基础 知识 简介 . 

EPH 16 章 , 大 体 上 可 分 为 3 个 部 分 : 第 1 部 分 包括 第 1~3 章 , 介绍 机 器 学 习 基 础 知识 ; 第 2 部 
分 包括 第 4~10 章 , 介绍 一 些 经 典 而 常用 的 机 器 学 习 方 法 ; 第 3 部 分 包括 第 11~16 章 , 介绍 一 些 进 阶 
知识 . 前 3 章 之 外 的 后 续 各 章 均 相对 独立 , 读者 可 根据 自己 的 兴趣 和 时 间 情 况 选 择 使 用 . 根据 课时 情 
况 , 一 个 学 期 的 本 科 生 课程 可 考虑 讲授 前 9 章 或 前 10 章 ; 研究 生 课 程 则 不 妨 使 用 全 书 . 

书 中 除 第 1 章 外 , 每 章 都 给 出 了 十 道 习题 . 有 的 习题 是 帮助 读者 巩固 本 章 学 习 , 有 的 是 为 了 引导 读 
者 扩展 相关 知识 . 一 学 期 的 一 般 课 程 可 使 用 这 些 习 题 , 再 辅 以 两 到 三 个 针对 具体 数据 集 的 大 作业 . 带 
星 号 的 习题 则 有 相当 难度 , 有 些 并 无 现成 答案 , 谨 供 富有 进取 心 的 读 才 启发 思考 . 

本 书 在 内 容 上 尽 可 能 涵盖 机 器 学 习 基 础 知识 的 各 方面 , 但 作为 机 器 学 习 入 门 读物 且 因 授课 时 间 的 
考虑 , 很 多 重要 、 前 沿 的 材料 未 能 履 盖 , BU FIN MOREE PR, 更 多 的 内 容留 待 读者 在 
进 阶 课程 中 学 习 . 为 便于 有 兴趣 的 读者 进一步 钻研 探索 , 本 书 每 章 均 介绍 了 一 些 阅 读 材料 , ee sea 
参考 . 

笔者 以 为 , 对 学 科 相 关 的 重要 人 物 和 事件 有 一 定 了 解 , 将 会 增进 读者 对 该 学 科 的 认识 . 本 书 在 每 
章 最 后 都 写 了 一 个 与 该 章 内 容 相 关 的 小 故事 , 希望 有 助 于 读者 增 广 见闻 , 并 且 在 紧张 的 学 习 过 程 中 稍 
微 放 松 调剂 一 下 . 

书 中 不 可 避免 地 涉及 大 量 外 国人 名 , AEAF P, 则 读者 在 日 后 进一步 阅读 文献 时 或 许 会 对 
不 少 人 名 产生 陌生 感 , 不 利于 进一步 学 习 . 因此 , 本 书 仅 对 一 般 读 者 耳熟能详 的 名 字 如 “图 灵 ” 等 加 
以 直接 使 用 , 对 故事 中 的 一 些 主 要 人 物 给 出 了 译名 , 其 他 则 保持 外 文 名 . 

机 器 学 习 发 展 极 迅 速 , 目前 已 成 为 一 个 广 训 的 学 科 , 罕有 人 士 能 对 其 众多 分 文 领域 均 有 精深 理解 . 
Se AUT wee, 仅 略 知 皮毛 , 更 兼 时 间 和 精力 所 限 , 书 中 错 请 之 处 在 所 难免 , 若 蒙 读者 诸 君 不 音 告 
知 , 将 不 胜 感激 . 


周志 华 
2015 *E 6 H 
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一 一 写 在 第 十 次 印刷 之 际 


本 书 2016 Æ 1 月 底 出 版 , 首 印 5000 Ht Al A seth BE; 此 后 8 个 月 重印 9 次 , 累积 72000 册 ; 先 
后 登 上 上 亚马逊、 京东、 当当 网 等 的 计算 机 类 畅销 书 榜 首 . 出 乎 预料 的 销量 和 受 欢迎 程度 , 意味 着 本 书 
读者 已 大 大 超出 了 预 设 的 目标 人 和 群 , 这 使 作者 隐隐 产生 了 些许 不 安 , 感觉 有 必要 说 一 说 本 书 的 立场 ， 
以 及 使 用 本 书 需 注意 的 一 些 事项 . 因此 , 在 第 10 次 印刷 之 际 草 就 本 文 . 

首先 , 读者 诸 君 务 须 注意 , 本 书 是 一 本 教科 书 . 

WKPB “Aw” PR, 写作 本 书 的 主因 是 作者 要 开设 “机 器 学 习 ” 课 . 根据 作者 的 从 教 经 验 , 者 
每 堂 课 涉及 页 码 过 多 , 则 不 少 同 学 由 于 选修 多 门 功课 , 在 课 后 或 许 难 有 兴趣 和 精力 认真 钻研 阅读 , 教 
师 也 会 因 “ 和 包容 太 重 ”而 失去 个 人 发 挥 的 空间 . 因此 , 作为 一 学 期 课程 的 教材 , 本 书 篇 幅 进 行 了 仔细 
考量 : 16 章 正 文 , 每 章 6~7 节 , 一 般 不 超过 25 页 . 研究 生 课 程 若 每 学 期 18 周 , 则 除去 习题 和 答疑 时 
fia), 基本 上 每 周 讲授 一 章 ; 本 科 生 课程 则 可 进度 稍 缓 , 一 学 期 讲授 9~10 章 . A BR, 作者 需 对 内 容 材 
料 、 以 及 材料 讲述 的 程度 进行 取舍 ; 否则 若 不 分 巨细 ， 其 篇 幅 可 能 令 读 者 望 而 生 虹 . 因此 , 读者 不 要 
指望 本 书 是 无 所 不 包 、“ 从 入 门 到 精通 ”的 书籍 . 事实 上 , 对 机 器 学 习 这 个 发 展 极 迅速 、 已 变 得 非常 
广 变 的 学 科 领 域 , 那样 的 书 尚 不 存在 ; 即便 出 现 , 也 非 数 千 页 不 止 , 不 适 于 用 作 教 科 书 . 

第 二 , 这 是 一 本 入 门 级 教科 书 . 

作者 以 为 , 入 门 阶段 最 需要 的 是 理 清 基本 概念 、 了 解 领域 概貌 . 这 好 比 人 们 到 了 一 个 陌生 的 地 方 ， 
首先 要 去 找 张 地 图 , 大 致 型 清 哪 里 是 山 、 哪 里 有 水 、 自 己 身 在 何 处 , 然后 才 好 到 具体 区 域 去 探索 . 读 
者 当然 都 希望 所 学 “ 既 广 且 深 ”, 但 在 有 限时 间 内 必 先 有 个 折 中 . 在 入 门 阶段 , “顾及 细微 ”应 该 让 
立 于 “ 观 其 大 略 ”, 否则 难免 只 见 树木 、 不 见 森 林 . 因此 , 作者 试图 通过 化 繁 为 简 的 讲述 , 使 读者 能 在 
有 限 的 篇 幅 中 感受 更 多 的 、 应 该 接触 到 的 内 容 . 一 定 程度 上 说 , 本 书 的 主要 目的 就 是 为 读者 提供 一 张 

“初级 地 形 图 ”， 给 初学 者 “ 指 路 ”, 而 本 书 提 供 的 这 张 “ 地 形 图 ”, 其 覆盖 面 与 同类 英文 书籍 相 较 
MEFE. 

机 器 学 习 中 存在 多 种 学 派 可 从 其 角度 曾 释 其 他 学 派 的 内 容 . 作者 以 为 , 理解 学 派 间 的 包容 等 价 ， 
在 进 阶 之 后 对 融 汇 贯通 大 有 神 益 , 但 在 入 门 阶 段 , 先 看 到 各 自 的 本 原 面 貌 更 为 重要 . 因为 没有 任何 一 
个 学 派 能 完全 “ 碾 压 ”其 他 , 而 过 早先 入 为 主 地 强化 某 学 派 观念 , 对 理解 欣赏 其 他 学 派 的 妙 处 会 埋 下 
隐 碍 . 因此 ， 本 书 尽 可 能 从 材料 的 “原生 态 ” 出 发 讲述 , 仅 在 少数 地 方 人 简略 点 出 联系 . 需 说 明 的 是 , 作 
者 试图 以 相近 深度 讲述 主要 内 容 . 读者 铬 感到 在 某 些 地 方 “ 意 犹 未 尽 ”, 或 因 作者 以 为 , 入 门 阶段 到 
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此 程度 已 可 , 对 其 他 内 容 的 初 筑 优先 于 此 处 的 进一步 深究 . 另外 , 机 器 学 习 飞 速 发 展 , 很 多 新 进展 在 学 
FATAL, 作者 以 为 不 适 于 与 人 入门 级 教科 书 中 ; (HA SARS SSR ea, 本 书 也 简略 
谈 太 一 些 本 领域 专家 有 初步 共识 的 相对 较 狐 的 内 容 . 

第 三 , 这 是 一 本 面 癌 理工 科 高 年 级 本 科 生 和 研究 生 的 教科 书 . 

对 前 治学 科 领 域 的 学 习 , 必然 需 有 基础 知识 作为 先导 . 为 便于 尽 可 能 多 的 读者 通过 本 书 对 机 器 学 
习 有 上 所 了 解 , 作者 已 试图 尽 可 能 少 地 使 用 数学 知识 , 很 多 材料 尽 可 能 选择 易于 理解 的 方式 讲述 . A k 
者 感觉 书 中 涉及 的 数学 较 深 , 且 目 己 仅 需 对 机 器 学 习 做 一 般 了 解 , 则 不 妨 略 过 细 市 仪 做 概观 , 否则 建 
议 对 相关 基础 知识 稍 作 复习 以 收 全 功 . 关于 篇 幅 , 作者 对 许多 材料 尽 可 能 述 其 精 要 、 去 其 细 见 , 所 涉 
数学 推导 在 紧要 人 处 给 出 阐释 , 对 理工 科 高 年 级 同学 稍 下 工夫 就 易 自行 弄 清 的 繁 见 则 异 黑 不 效 . 

读者 不 要 指望 通过 读 这 本 入 门 级 教科 书 束 能 成 为 机 占 学 习 专 家 , 但 让 中 各 章 分 别 给 出 了 一 齿 文献 
指引 , 有 兴趣 的 读者 不 妨 据 此 进一步 深造 . 另外 , 互联 网 时 代 之 信息 获取 已 相当 便利 , 读者 可 以 容易 地 
在 网 上 找到 机 器 学 习 中 关于 单个 “知识 后 ”的 内 容 , 而 信息 搜索 是 理工 科学 生 必 备 的 本 领 , 只 需 知 道 
ACE “R” MA, 就 应 该 一 定 能 找到 材料 . 根据 本 书 提供 的 “地 形 图 ”, 读者 阁 渴 望 对 某 个 知识 点 
RETR, “TR BRE” DV TIC ACK AME. 

第 四 , 这 本 书 不 妨 多 读 几 过 

初学 机 器 学 习 易 陷入 一 个 误区 : 以 为 机 器 学 习 是 若干 种 算法 (方法 ) 的 堆积 , RRT “KER” 
或 “二 十 大 算法 ”一 切 即 可 迎刃而解 , 于 是 将 目光 仅 聚 焦 在 具体 算法 推导 和 编程 实现 上 ; 待 到 实践 发 
现 效 果 不 如 人 意 , 则 又 转 对 机 器 学 习 发 生 怀 疑 . 须知 , 书本 上 仅 能 展示 有 限 的 典型 “套路 ”, 而 现实 世 
界 任 务 干 变 万 化 , 以 有 限 之 套路 应 对 无 限 之 变化 , BAA! 现实 中 更 多 时 候 , 需 依据 任务 特 乓 对 现 
有 套路 进行 改造 融通 . 算法 是 “ 死 ” 的 , 思想 才 是 “ 活 ” 的 . 欲 行 此 道 , 则 务 须 把 握 算 法 背后 的 思想 脉 
络 , 无 论 创 新 科研 还 是 应 用 实践 , 皆 以 此 为 登 香 入室 之 始 . 本 书 在 有 限 篇 幅 中 侧重 于 斯 , 慢 望 辅助 读者 
蝎 造 进一步 精进 的 视野 心 法 . 读者 由 本 书 初 入 门 径 后 , 不 妨 搓 书 熟 习 “套路 ”, 数 月 后 再 阅 , 于 原 不 经 
意 处 或 能 有 新 得 . 此 外 , 作者 在 一 些 角 落 融 入 了 目 己 多 年 研究 实践 的 些微 心得 , BAR BS Ais, 但 可 能 
不 易 得 之 , TET Er bri] ZY SEK. 

读者 知 仅 对 茶几 种 具体 机 器 学 习 技 术 的 算法 推导 或 工程 实现 感 兴趣 , 则 本 书 可 能 不 太 适 合 ; AA 
需 机 器 学 习 算 法 “ 速 查 手册 ”, 则 直接 查看 维基 百科 可 能 更 便利 一 些 . 

EA A UA iii, 对 机 器 和 学习 仅 略 知 诺 毛 , SEEN TA] AA TB, 书 中 错 请 之 处 甚 多 , BBHREN 
刷 均 对 错 处 或 易 误解 处 做 勘误 修订 , 但 仍 在 所 难免 , Ar Be ET A AN, 将 不 胜 感 油 . 
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主要 符号 表 


标量 

问 量 

变量 集 

和 矩阵 

单位 阵 

样本 空间 或 状态 空间 

概率 分 布 

数据 样本 数据 集 》 

假设 空间 

假设 集 

ÍT HÆ 

列 癌 量 

问 量 或 矩阵 转 置 

集合 

集合 {:… } 中 元 素 个 数 

Lp 范 数 , p 缺 省 时 为 Le 范 数 

函数 f (-) 对 : 在 分 布 DD 下 的 数学 期 望 ; 意义 明确 时 将 
省 略 D 和 (或 ) - 

上 确 界 

指示 函数 , 在 : 为 真 和 假 时 分 别 取 值 为 1,0 
符号 函数 , Æ- <0, = 0, > 0 时 分 别 取 值 为 一 1,0,1 
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[Mitchell，1997] 给 出 了 
A 已 来 评估 计算 机 程序 
在 某 任务 类 工 上 的 性 能 ， 
车 一 个 程序 通过 利用 经 验 
EET PIES ERT 
能 改善 则 我 们 就 说 关于 
T fo P, 该 程序 对 E Ay 
了 学 习 . 


例如 [Hand et al., 2001]. 


1.1 引言 


傍晚 小 街路 面 上 沁 出 币 雨 后 的 湿润 和 巾 的 细 风 吹 来 , 抬头 看 看 天 边 的 上 晚 
Be, WA, 明天 又 是 一 个 好 天 和 气 . SKRIES, DES TAR RESALE 
响 的 青绿 西瓜 , 一 边 满 心 期 待 着 皮 注 肉 厚 医 甜 的 爽 落 感 , 一 边 愉 快 地 想 着 , 这 学 
HR PS LK, 基础 概念 乔 得 清 清 楚楚 , 算法 作业 也 是 信 手 牛 来 , 这 门 课 成 绩 一 
定 差 不 了 ! 

希望 各 位 在 学 期 结束 时 有 这 样 的 感觉 . 作为 开场 , 我 们 先 大 致 了 解 一 下 什 
么 是 “机 器 学 习 ”(machine learning). 

回头 看 第 一 段 话 , 我 们 会 发 现 这 里 涉及 很 多 基于 经 验 做 出 的 预 判 . 例如 , 为 
TA BCA ee A. SBA. ASKE, 就 认为 明天 是 好 天 呢 ? 这 是 因为 在 
我 们 的 生活 经 验 中 已 经 遇见 过 很 多 类似 情况 , 头 一 天 观 守 到 上 述 特 征 后 , 第 二 
天 天 人 气 通 常会 很 好 . AT ASR PR ES og, 就 能 判断 出 是 正 
熟 的 好 瓜 ? 因为 我 们 吃 过 、 看 过 很 多 西瓜 , MUETTE RR. ILS 
特征 我 们 就 可 以 做 出 相当 好 的 判断 . 类 似 的 , 我 们 从 以 往 的 学 习 经 验 知道 , 下 足 
了 工夫 、 卉 清 了 概念 、 做 好 了 作业 , 目 然 会 取得 好 成 绩 . 可 以 看 出 , 我 们 能 做 出 
有 效 的 预 判 , 是 因为 我 们 已 经 积累 了 许多 经 验 , 而 通过 对 经 验 的 利用 , 就 能 对 新 
情况 做 出 有 效 的 决策 . 

上 面 对 经 验 的 利用 是 靠 我 们 人 类 上 自身 完成 的 . 计算 机 能 帮忙 吗 ? 

机 妖 学 习 正 是 这 样 一 门 学 科 , 它 致 力 于 研究 如 何 通过 计算 的 手段 , 利用 经 
验 来 改善 系统 目 喘 的 性 能 . 在 计算 机 系统 中 ,， “经 验 ” 通 剃 以 “数据 ”形式 和 存 
在 , 因此 , 机 器 学 习 所 研究 的 主要 内 容 , 古 天 于 在 计算 机 上 从 数据 中 产生 “ 模 
型 ”(model) 的 算法 , 即 “ 学 习 算 法 ”(learning algorithm). 有 了 学 习 算 法 , 我 
们 把 经 验 数 据 提 供给 它 , 它 就 能 基于 这 些 数据 产生 模型 ; 在 面 对 新 的 情况 时 ( 例 
如 看 到 一 个 没 谢 开 的 西瓜 ), 模型 会 给 我 们 提供 相应 的 判断 (例如 好 瓜 ). 如 果 说 
计算 机 科学 是 研究 关于 “算法 ”的 学 问 , 那么 类 似 的 , 可 以 说 机 器 学 习 是 研究 
关于 “学 习 算 法 ”的 学 问 . 

本 书 用 “模型 ” 泛 指 从 数据 中 学 得 的 结果 . 有 文献 用 “模型 ” 指 全 局 性 结 
果 ( 例 如 一 棵 决策 树 ), 而 用 “模式 ” 指 局 部 性 结果 (例如 一 条 规则 ). 


有 了 时 整个 数据 集 亦 称 一 
个 “样本 ”,， 因 为 它 可 看 
作对 样本 空间 的 一 个 采样 ; 
Mit bP Ra Pl “4# 
本 ”是 指 单个 示例 还 是 数 
HE, 


Ul ae A TP AR “U T 
例 ” (training instance) 或 
“ipil #5. i5] EE . 


学 习 算 法 通常 有 参数 需 
设置 , 使 用 不 同 的 参数 什 
和 (或 ) 训 练 数据 ， 将 产生 
不 同 的 结果 . 


将 “label” 译 为 “ 标 
记 ” 而 非 “标签 ”， 是 考 
EHAA “label” T 
用 作 名 词 、 也 可 用 人 必 动 词 . 


1.2 基本 术语 


要 进行 机 器 学 习 , 先 要 有 数据 . 假定 我 们 收集 了 一 批 关于 西瓜 的 数据 , 例 
如 (色泽 = 青绿 ; A PEA; PT), ( 色 渗 = 乌黑 ; MwA eT 
i), (E F= A; AR HEE; 敲 声 = 清脆 ),，……-, 每 对 插 号 内 是 一 条 记录 ， 

“二 ”意思 是 “ 取 值 为 ”. 

这 组 记录 的 集合 称 为 一 个 “数据 集 ” (data set), 其 中 每 条 记录 是 关于 一 

个 事件 或 对 象 ( 这 里 是 一 个 西瓜 ) 的 描述 , 称 为 一 个 “示例 ”(instance) 或 “ 样 
Æ” (sample). 反映 事件 或 对 象 在 某 方面 的 表现 或 性 质 的 事项 , 例如 “色泽 ” 
“Fear” “mera” | BRA “JRE” (attribute) 或 “特征 ”(feature); 属性 上 的 取 
值 , 例如 “青绿 ”“ 乌 黑 ”, 称 为 “属性 值 ”(attribute value). 属性 张 成 的 空 
ll PKA “JBTE” (attribute space) “FERT” (sample space) 或 “输入 
空间 ”. PMI “EPR” GRE” “SR” PED =A eh, 则 它们 张 成 
一 个 用 于 描述 西瓜 的 三 维 空间 , 每 个 西瓜 都 可 在 这 个 空间 中 找到 自己 的 坐标 位 
A. 由 于 空间 中 的 每 个 点 对 应 一 个 坐标 癌 量 , 因此 我 们 也 把 一 个 示例 称 为 一 个 
“特征 向 量 ”(feature vector). 

一 般 地 , 令 D = {£1, £2,... Em) RRA m 个 示例 的 数据 集 , 每 个 
示例 由 dad 个 属性 描述 (例如 上 面 的 西瓜 数据 使 用 了 3 个 属性 )， 则 每 个 示例 
Ti = (Til; Ti2; ... ;Tid) Æ d 维 样本 空间 X 中 的 一 个 癌 量 , zi € XY, 其 中 Tij HE 
zi 在 第 7 个 属性 上 的 取 值 (例如 上 述 第 3 个 西瓜 在 第 2 个 属性 上 的 值 是 “ 便 
BE” ), a 称 为 样本 mi 的 “ 维 数 ”(dimensionality). 

从 数据 中 学 得 模型 的 过 程 称 为 “学 习 ”(learning) 或 “训练 ”(training)， 
这 个 过 程 通 过 执行 某 个 学 习 算 法 来 完成 . 训练 过 程 中 使 用 的 数据 称 为 “训练 
数据 (training data), 其 中 每 个 样本 称 为 一 个 “训练 样本 ”(training sample), 
训练 样本 组 成 的 集合 称 为 “训练 集 ”(training set). 学 得 模型 对 应 了 关于 数据 
的 某 种 潜在 的 规律 TALE eR “ER ez” (hypothesis); I< FY HF TEA A, MER 
为 “真相 ”或 “真实 ”(ground-truth), 3EM EAN T Feo BT ALAR. 本 
书 有 了 时 将 模型 称 为 “学 习 器 ”(learner), 可 看 作 学 习 算 法 在 给 定数 据 和 参数 宇 
间 上 的 实例 化 . 

如 果 和 希望 学 得 一 个 能 帮助 我 们 判断 没 误 开 的 是 不 是 “好 瓜 ” 的 模型 , 仅 
有 前 面 的 示例 数据 显然 是 不 够 的 . BEER NS “FH” (prediction) 的 
模型 , 我们 需 获 得 训练 样本 的 “结果 ”信息 , 例如 “(( 色 泽 = 青 绿 ; IR Nee; 
a FST), 好 瓜 )”. 这 里 关于 示例 结果 的 信息 , 例如 “好 瓜 ”, PKA “te 
W” (label); 拥有 了 标记 信息 的 示例 , WEA “FEB” (example). 一 般 地 , 用 


1.2 基本 术语 


车 将 标记 看 作对 象 本 身 
的 一 部 分 ， 则 “ 样 例 ”有 
时 也 称 为 “样本 ”. 


亦 称 “ 负 类 ”. 


亦 称 “测试 示例 ” 
(testing instance) 2 “3Y 


试 例 ”. 


否则 标记 信息 直接 形成 
JT HRD; 但 也 有 例外 情 
JL, 参见 13.6 节 ， 


亦 称 “有 导师 学 习 ” 和 
“无 导师 学 习 ”. 


更 确切 地 说 , 是 “未 见 


示例 ” (unseen instance). 


现实 任务 中 样本 空间 的 
规模 通常 很 大 (例如 20 个 
属性 , 每 个 属性 有 10 个 可 
能 取 值 ， 则 样本 空间 的 规 
模 已 达 1020). 
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(zi Yi) 表示 第 i 个 样 例 , 其 中 y E V 是 示例 mi 的 标记 , V 是 所 有 标记 的 集合 ， 
亦 称 “标记 空间 ”(label space) 或 “输出 空间 ”. 
和 否 我 们 欲 预 测 的 是 离散 值 , 例如 “好 瓜 ”“ 坏 瓜 ”, 此 类 学 习 任 务 称 为 
“分 类 ”(classification); 若 欲 预测 的 是 连续 值 , 例如 西瓜 成 熟 度 0.95、0.37， 
此 类 学 习 任 务 称 为 “回归 ”(regression). 对 只 涉及 两 个 类 别 的 “二 分 
类 ”(binary classification) (EA, 通 沼 称 其 中 一 个 类 为 “ 正 类 ” (positive class), 
另 一 个 类 为 “ 反 类 ”(negative class) 涉及 多 个 类 别 时 ， 则 称 为 “多 分 
38” (multi-class classification) 任务 . 一 般 地 , 预测 任务 是 希望 通过 对 训练 
R {(x1, y1), (£2, yo),---; (Em, ym)} 进行 学 习 , 建立 一 个 从 输入 空间 二 到 输出 
空间 VY ABR fe: Vr VY. 对 二 分 类 任务 , WAS V = {一 1, 十 1} 或 {0,1}; 对 
多 分 类 任务 , V| > 2; 对 回归 任务 , V = R, R 为 实数 集 . 

学 得 模型 后 , 使 用 其 进行 预测 的 过 程 称 为 “测试 ”(testing), 被 预测 的 样本 
称 为 “测试 样本 ”(testing sample). 例如 在 和 学 得 f Ja, WMA a, 可 得 到 其 预 
WERE y = f(x). 

我 们 还 可 以 对 西瓜 做 “ 诊 类 ”(clustering), 即将 训练 集中 的 西瓜 分 成 若干 
组 , FHARR AS “RR” (cluster); 这 些 上 自动 形成 的 艇 可 能 对 应 一 些 潜在 的 概念 
划分 , 例如 “ 浅 色 瓜 ”“ 深 色 瓜 ”, 甚至 “本 地 瓜 ”“ 外 地 瓜 ”. 这 样 的 学 习 过 
程 有 助 于 我 们 了 解数 据 内 在 的 规律 , 能 为 更 深入 地 分 析 数 据 建 立 基础 . 需 说 明 
的 是 , 在 罕 类 学 习 中 ,“ 浅 色 瓜 ”“ 本 地 瓜 ” 这 样 的 概念 我 们 事先 是 不 知道 的 ， 
而 且 学 习 过 程 中 使 用 的 训练 样本 通 稼 不 拥有 标记 信息 . 

根据 训练 数据 是 否 拥 有 标记 信息 , 尝 习 任务 可 大 致 划分 为 两 大 类 : “监督 
E3” (supervised learning) FU “sci >)” (unsupervised learning), 分 类 
和 回归 是 前 者 的 代表 , SES E a A HT. 

fbr ze, 机 器 学 习 的 目标 是 使 学 得 的 模型 能 很 好 地 适用 于 “新 样本 ”,， 
而 不 是 仅仅 在 训练 样本 上 工作 得 很 好 ; 即便 对 聚 类 这 样 的 无 监督 学 习 任 务 , 我 
们 也 和 希望 学 得 的 艇 划分 能 适用 于 没 在 训练 集中 出 现 的 样本 . 学 得 模型 适用 于 
新 样本 的 能 力 , PRA “YK” (generalization) feJ. 具有 强 泛 化 能 力 的 模型 能 
很 好 地 适用 于 整个 样本 衬 间 . 于 是 , 尽管 训练 集 通 常 只 是 样本 空间 的 一 个 很 小 
的 采样 , 我 们 仍 希 望 它 能 很 好 地 反映 出 样本 空 则 的 特性 , 盏 则 就 很 难 期 望 在 训 
练 集 上 学 得 的 模型 能 在 整个 样本 空 则 上 都 工作 得 很 好 . 通常 假设 样本 空间 中 全 
体 样 本 服从 一 个 未 知 “ 分 布 ”(distribution) D, 我 们 获得 的 每 个 样本 都 是 独立 
地 从 这 个 分 布 上 采样 获得 的 , BE “Jks” (independent and identically 
distributed, 简称 i.i.d.). 一 般 而 言 , 训练 样本 越 多 , 我 们 得 到 的 关于 D 的 信息 


更 一 般 的 情况 是 考虑 形 
to (AN B) V (CAD) 的 析 
合 范 式 . 


RE, 这 样 就 越 有 可 能 通过 学 习 获 得 具有 强 泛 化 能 力 的 模型 . 


1.3 假设 空间 


归纳 (induction) 与 演绎 (deduction) 是 科学 推理 的 两 大 基本 手段 . 前 者 是 从 
特殊 到 一 般 的 “ 泛 化 ”(generalization) 过 程 , 即 从 具体 的 事实 归结 出 一 般 性 规 
律 ; 后 者 则 是 从 一 般 到 特殊 的 “ 特 化 ”(specialization) 过 程 , 即 从 基础 原理 推演 
出 具体 状况 . 例如 , 在 数学 公理 系统 中 , 基于 一 组 公理 和 推理 规则 推导 出 与 之 
相 洽 的 定理 , KERE, 而 “从 祥 例 中 和 尝 习 ”显然 是 一 个 归纳 的 过 程 , 因此 亦 称 
“上 腿 纳 学 习 ” (inductive learning). 

归纳 学 习 有 狭义 与 广义 之 分 ;广义 的 归纳 学 习 大 体 相 当 于 从 样 例 中 学 习 ， 
而 狭义 的 归纳 学 习 则 要 求 从 训练 数据 中 学 得 概念 (concept), 因此 亦 称 为 “概念 
和 学习” 或 “概念 形成 ”. 概念 学 习 拉 术 目 前 研究 、 应 用 都 比较 少 , 因为 要 学 得 
汉化 性 能 好 且 语 义 明 确 的 概念 实在 太 困 难 了 , 现实 常用 的 拉 术 大 多 是 产生 “ 黑 
箱 ” 模 型 . 然而 , 对 概念 学 习 有 所 了 解 , 有 助 于 理解 机 器 学 习 的 一 些 基 础 思想 . 

概念 学 习 中 最 基本 的 是 布尔 概念 学 习 , 即 对 “是 ” “不 是 ”这 样 的 可 表示 
为 0/1 布尔 值 的 目标 概念 的 和 学习. 举 一 个 简单 的 例子 , 假定 我 们 获得 了 了 这样 一 
个 训练 数据 集 : 

表 1.1 西瓜 数据 集 


编写 EF RR WS 好 瓜 
1 Wee e A 是 
2 乌黑 tea veg 是 
3 ”青绿 WE F 否 
4 Bm File veo S 
这 里 要 学 习 的 目标 是 “TFT,” l a HR “fem” 可 由 “人 色泽 ” “Hd EO”? 


“TM FS” X= SAR SCe AE, 换言之 , 只 要 某 个 瓜 的 这 三 个 属性 取 值 明确 了 ， 
我 们 就 能 判断 出 它 是 不 是 好 瓜 . 于 是 , 我 们 学 得 的 将 是 “好 瓜 是 茶 种 色泽 、 某 
种 根 蒂 、 茶 种 禹 声 的 瓜 ” 这 样 的 概念 , 用 布尔 表达 式 写 出 来 则 是 “好 瓜 oo (E 
洋 =?) A (ARTF?) A (可 声 =?)”, 这 里 “?” 表 示 疝 未 确定 的 取 值 , 而 我 们 的 任 
务 就 是 通过 对 表 1.1 的 训练 集 进行 学 习 , 把 “? 了 ”确定 下 来 . 

读者 可 能 马上 发 现 , 表 1.1 第 一 行 : “(色泽 = 青绿 ) A AR HEA) A (BK 
E=)” ANB IGS? 是 的 , 但 这 是 一 个 已 见 过 的 瓜 , 别 筷 了 我 们 学 习 的 
目的 是 “ 泛 化 ”, 即 通 过 对 训练 集中 瓜 的 学习 以 获得 对 没 见 过 的 瓜 进行 判断 的 


1.3 {Reis ji] 


“ 记 住 ”训练 样本 ， 就 
是 所 谓 的 “机 要 学 习 ” 
[Cohen and Feigenbaum, 
1983], 或 称 “ 死 记 硬 背 式 
学 习 ”, 参见 1.5 节 . 


这 里 我 们 假定 训 钴 样 
RFE KE , FLT E 
“ 非 青绿 ”这 样 的 一 4 操 
tE., 由 于 训练 集 和 包含 正 例 ， 
因此 所 假设 自然 不 出 现 . 


有 许多 可 能 的 选择 ， 如 
在 路 径 上 自 顶 向 下 与 自 底 
向 上 同时 进行 , 在 操作 上 
只 删除 与 正 例 不 一 致 的 假 
设 等 . 


EJI. 如 果 仅 仅 把 训练 集中 的 瓜 “ 记 住 ”, 今后 再 见 到 一 模 一 样 的 瓜 当然 可 淹 
Br, 但 是 , 对 没 见 过 的 瓜 , 例如 “( 色 泽 = 浅 白 ) A A EA) A (RE =h)” 
怎么 办 呢 ? 

我 们 可 以 把 学 习 过 程 看 作 一 个 在 所 有 假设 (hypothesis) 组 成 的 空间 中 进行 
搜索 的 过 程 , 搜索 目标 是 找到 与 训练 集 “ 匹 配 ”(fit) 的 假设 , 即 能 够 将 训练 集中 
的 瓜 判 断 正 确 的 假设 . 假设 的 表示 一 旦 确定 , 假设 空间 及 其 规模 大 小 就 确定 了 . 
这 里 我 们 的 假设 空间 由 形 如 “( 色 泽 =?) A ORR =?) A ( 敲 声 =?)” 的 可 能 取 值 
所 形成 的 假设 组 成 . AUWERA “SR” “ER” RA” = PP) BER; 
还 需 考 虑 到 , 也许“ 色泽” 无 论 取 什么 值 都 合适 , 我 们 用 通配符 “*” 来 表示 ， 
例如 “好 瓜 e (色泽 = *) A (AR HRSA) A ( 敲 声 = 浊 响 )”, BD “ep ea aS 
缩 、 敲 声 浊 响 的 瓜 , 什么 色泽 都 行 ”. 此 外 , 还 需 考 虑 极端 情况 : 有 可 能 “好 
瓜 ” 这 个 概念 根本 就 不 成 立 , 世界 上 没有 “好 瓜 ” 这 种 东西 ; RIH o 表示 这 
个 假设 . 这 样 , 知 “ 色 泽 ”“ 根 带 ”“ 涡 声 ” 分 别 有 3、3、3 种 可 能 取 值 , 则 我 
们 面临 的 假设 空间 规模 大 小 为 4x 4x 4 十 1 = 二 65. 图 1.1 直 观 地 显示 出 了 这 个 
西瓜 问题 假设 空间 . 


e a, 
a ma : 


we 


AR = 青绿 OR See aE | (色泽 二 青绿 A Se, BE STD 


图 1.1 西瓜 问题 的 假设 空间 


可 以 有 许多 策略 对 这 个 假设 空间 进行 搜索 , 例如 目 顶 向 下 、 从 一 般 到 特殊 ， 
或 是 目 压 和 同上、 从 特殊 到 一 般 , 搜索 过 程 中 可 以 不 断 删 除 与 正 例 不 一 致 的 假 
设 、 和 (或 ) 与 反例 一 致 的 假设 . 最 终 将 会 获得 与 训练 集 一 人 致 ( 即 对 所 有 训练 样本 
能 够 进行 正确 判断 ) 的 假设 , 这 就 是 我 们 学 得 的 结果 . 

需 注 意 的 是 , 现实 问题 中 我 们 常 面 临 很 大 的 假设 空间 , 但 学 习 过 程 是 基于 
有 限 样本 训练 集 进 行 的 , 因此 , 可 能 有 多 个 假设 与 训练 集 一 致 , 即 存在 着 一 个 与 
训练 集 一 致 的 “假设 集合 ”, 我 们 称 之 为 “版 本 空间 ”(version space). 例如 ， 
在 西瓜 问题 中 , 与 表 1.1 训练 集 所 对 应 的 版 本 空间 如 图 1.2 所 示 . 


尽 可 能 特殊 即 “适用 情 
形 尽 可 能 少 ”; 尽 可 能 一 
般 即 “适用 情形 尽 可 能 


对 “ 根 蒂 ” 还 是 对 “项 
P” EEH, 看 起 来 和 局 
性 选择 亦 称 “特征 选 
择 ” (feature selection) 有 
关 , 但 需 注意 的 是 , 机 器 学 
习 中 的 特征 选择 仍 是 基于 
对 训练 样本 的 分 析 进 行 的 ， 
而 在 此 处 我 们 并 非 基 于 特 
REFER Ha “SFR? Og 
重视 ; 这 里 对 “ 根 蒂 ” 的 
信赖 可 视 为 基于 某 种 领域 
知识 而 产生 的 归纳 偏好 . 
关于 特征 选择 方面 的 内 容 
参见 第 11 章 . 


第 1 章 & 论 


(EF =+; RE = eS ; 项 声 =*) (EJE =; a = 5 ee = A ) 


a 


图 1.2 西瓜 问题 的 版 本 空间 


1.4 YA24 tha OF 


通过 学 习 得 到 的 模型 对 应 了 假设 空间 中 的 一 个 假设 . 于 是 , 图 1.2 的 西瓜 
版 本 空间 给 我 们 带 来 一 个 麻烦 : 现在 有 三 个 与 训练 集 一 致 的 假设 , 但 与 它们 对 
应 的 模型 在 面临 新 样本 的 时 候 , 却 会 产生 不 同 的 输出 . 例如 , 对 (色泽 = 青绿 ; 根 
PWG, 敲 声 = 沉 闽 ) 这 个 新 收 来 的 瓜 , 如 果 我 们 采用 的 是 “好 瓜 (R= +) 
A ( 根 蒂 = 赚 缩 ) A (WEA *) ”, 那么 将 会 把 新 瓜 判断 为 好 瓜 , 而 如 果 采 用 了 另外 
两 个 假设 , 则 判断 的 结果 将 不 是 好 瓜 . 那么 , 应 该 采用 哪 一 个 模型 (或 假设 ) 呢 ? 

若 仅 有 表 1.1 中 的 训练 样本 , 则 无 法 断定 上 述 三 个 假设 中 哪 一 个 “更 好 ”. 
然而 , 对 于 一 个 具体 的 学 习 算法 而 言 , 它 必须 要 产生 一 个 模型 这 时 , 学 习 算 
法 本 身 的 “偏好 ”就 会 起 到 关键 的 作用 . 例如 , 车 我 们 的 算法 喜欢 “ 尽 可 能 特 
殊 ” 的 模型 , 则 它 会 选择 “好 瓜 + (色泽 = *) 人 ( 根 带 = 赚 缩 ) A=)” 
但 若 我 们 的 算法 喜欢 “ 尽 可 能 一 般 ” 的 模型 , 并 且 由 于 某 种 原因 它 更 “相信 ” 
根 蒂 , 则 它 会 选择 “好 瓜 + (色泽 二 *) A (AAEM) A(R =)”. 机 器 学 习 
算法 在 学 习 过 程 中 对 某 种 类 型 假设 的 偏好 , 称 为 “归纳 偏好 ”(inductive bias), 
或 简称 为 “偏好 ”. 

任何 一 个 有 效 的 机 器 学 习 算法 必 有 其 归纳 偏好 , 否则 它 将 被 假设 空间 中 
看 似 在 训练 集 上 “等 效 ” 的 假设 所 迷惑 , 而 无 法 产生 确定 的 学 习 结果 . 可 以 想 
象 , 如 果 没 有 偏好 , 我 们 的 西瓜 学 习 算 法 产生 的 模型 每 次 在 进行 预测 时 随机 抽 
选 训练 集 上 的 等 效 假设 , 那么 对 这 个 新 瓜 “( 色 泽 = 青 绿 ; 根 带 == 虹 缩 ; BO 


间 )”, 学 得 模型 时 而 告诉 我 们 它 是 好 的 、 时 而 告诉 我 们 它 是 不 好 的 , 这 样 的 学 


归纳 偏好 的 作用 在 图 1.3 这 个 回归 学 习 图 示 中 可 能 更 直观 . 这 里 的 每 个 训 
练 样 本 是 图 中 的 一 个 点 (x,y), 要 学 得 一 个 与 训练 集 一 致 的 模型 , 相当 于 找到 一 
条 穿 过 所 有 训练 样本 点 的 曲线 . 显然 , 对 有 限 个 样本 点 组 成 的 训练 集 , 存在 着 
很 多 条 曲线 与 其 一 致 . 我 们 的 学 习 算 法 必须 有 茶 种 偶 好 , 才能 产 出 它 认 为 “ 正 
确 ” 的 模型 . 例如 , 知 认为 相似 的 样本 应 有 相似 的 输出 (例如 , 在 各 种 属性 上 都 


1.4 归纳 偏好 


图 1.3 存在 多 条 曲线 与 有 限 样本 训练 集 一 致 


很 相像 的 西瓜 , 成 束 程 度 应 该 比较 接近 ), 则 对 应 的 学 习 算 法 可 能 仿 好 图 1.3 中 
比较 “平滑 ”的 曲线 A 而 不 是 比较 “ 崎 虹 ” 的 曲线 B. 

归纳 偏好 可 看 作 学 习 算 法 目 喘 在 一 个 可 能 很 庞大 的 假设 空间 中 对 假设 进 
行 选 择 的 局 发 式 或 “价值 观 ”. WA, 有 没有 一 般 性 的 原则 来 引 叶 算法 确立 
“正确 的 ”偏好 呢 ?“ 奥 卡 姆 潭 刀 ”(Occam’s razor) 是 一 种 第 用 的 、 目 然 科 学 
研究 中 最 基本 的 原则 , 即 “ 若 有 多 个 假设 与 观 穴 一 致 , 则 选 最 简单 的 那个 ”. 如 
条 采用 这 个 原则 , 并 且 假 设 我 们 认为 “更 平滑 ” 蚀 味 看 “更 人 简单”( 例 如 曲线 
A 更 易于 描述 , 其 方程 式 是 y = 一 x* + 6z 十 1, 而 曲线 B 则 要 复杂 得 多 ), 则 在 
图 1.3 中 我 们 会 自然 地 偏好 “平滑 ”的 曲线 A. 


然而 , 奥 卡 姆 剃刀 并 非 唯一 可 行 的 原则 . 退 一 步 说 , 即便 假定 我 们 是 奥 卡 姆 
HIMES, 也 需 注 意 到 , 奥 卡 姆 剃刀 本 身 存在 不 同 的 诠释 , 使 用 奥 卡 姆 剃 
刀 原 则 并 不 平凡 . 例如 对 我 们 已 经 很 熟悉 的 西瓜 问题 来 说 ,， “假设 1: 好 瓜 Oo 
(色泽 =*) A (A APHIS) A ( 融 声 = 浊 啊 )” 和 假设 2: “EFM o (色泽 =*) A 
(AS =E) A ( 融 声 =*)” 这 两 个 假设 , 哪 一 个 更 “简单 ” 呢 ? 这 个 问题 并 不 
简单 , 需 倍 助 其 他 机 制 才 能 解决 . 

事实 上 , 归纳 偏好 对 应 了 学 习 算 法 本 身 所 做 出 的 关于 “什么 样 的 模型 更 
好 ”的 假设 . 在 具体 的 现实 问题 中 , 这 个 假设 是 否 成 江 , 即 算法 的 归纳 偏好 是 否 
与 问题 本 身 匹 配 , 大 多 数 时 候 直接 决定 了 算法 能 否 取 得 好 的 性 能 . 

让 我 们 再 回头 看 看 图 1.3. 假设 学 习 算法 La 基于 某 种 归纳 偏好 产生 了 对 应 
于 曲线 A 的 模型 , 学 习 算 法 & 基于 男 一 种 归纳 偏好 产生 了 对 应 于 曲线 B 的 模 
型 .基于 前 面 讨论 的 平滑 曲线 的 某 种 “描述 简单 性 ”, 我 们 满怀 信心 地 期 待 算 
法 La E Lp BE. 确实, 图 1.4(a) 显 示 出 , 与 B 相 比 , A 与 训练 集 外 的 样本 更 一 
致 ; 换言之 , A 的 泛 化 能 力 比 B 强 . 


(a) A RFB (b) B 优 于 A 


1.4 没有 免费 的 午餐 . (BA: 训练 样本 ; 白 点 : 测试 样本 ) 


但 是 , Ale! 虽然 我 们 希望 并 相信 La E fp 更 好 , 但 会 不 会 出 现 图 1.4(b) 的 
情况 : 与 A 相 比 , B 与 训练 集 外 的 样本 更 一 致 ? 

很 遗憾 , 这 种 情况 完全 可 能 出 现 . 换言之 , 对 于 一 个 学 习 算 法 La, FEER 
些 问题 上 比 学 习 算 法 Lo 好, 则 必然 存在 另 一 些 问题 , 在 那里 L EE La 好 . 有 趣 
的 是 , 这 个 结论 对 任何 算法 均 成 立 , 哪怕 是 把 本 书后 面 将 要 介绍 的 一 些 联 明 算 
法 作为 La 而 将 “随机 胡 猜 ”这 样 的 笨 抽 算法 作为 Se 惊讶 吗 ? 让 我 们 看 看 下 


面 这 个 简短 的 讨论 
“oe 为 简单 起 见 , 假设 样本 空间 2 和 假设 空间 H 都 是 离散 的 . 令 P(h|X, £a) 


ee 代表 算法 La 基于 训练 数据 X 产生 假设 h 的 概率 , 再 令 了 代表 我 们 硕 望 学 习 的 
GE ay Fy + iy x + | l 

而 不 会 影响 理解 , 只 需 相 “真实 目标 函数 . La 的 “训练 集 外 误差 ”, 即 La 在 训练 集 之 外 的 所 有 样本 上 的 
信 ， 上 面 这 个 看 起 来 “ 菲 ”误差 为 

夷 所 思 ” 的 结论 确实 是 成 


+4. 
Eote(LalX, f) =J, >, P(®)1(h(®)# f(®))P(h|X, £a), (11) 
h TEX—X 
Heh I() 是 指示 函数 , 车 . 为 真 则 取 值 1, 否则 取 值 0. 
考虑 二 分 类 问题 , 且 真实 目标 函数 可 以 是 任何 函数 XY > {0,1}, 函数 空间 
为 {0, 13/41. 对 所 有 可 能 的 了 按 均 匀 分 布 对 误差 求 和 , 有 
DEote(DalX,f)= 2 >>> 2, P(x) (h(x) ¥ f(Œ)) P(h | X, £a) 
f f h wmEX-X 
= > ，P(z)> P(h| X, La) > Mae) # f(z)) 
rer —X h f 
车 了 均匀 分 布 , 则 有 一 1 
半 的 1 对 x 的 预测 与 h(a) = >. P(e) 7 x £4)52'" 
不 一 致 ， H i on i, © h 


= Z2 5 P02 eE 


和 后 二 一 


1.4 VAA iF 9 


aoer >. Pal (1.2) 


rex*-—X 


式 (1.2) 显 示 出 , 总 误差 竞 然 与 学 习 算 法 无 关 ! 对 于 任意 两 个 学 习 算法 La 和 
>》 Eote(LalX; f) = X Eote(£s|X, f) ; (1.3) 
f f 


也 就 是 说 , 无 论 学 习 算 法 La 多 聪明 、 学 习 算 法 Le SAH, 它们 的 期 望 性 能 竟 
严格 的 NFL 定理 证 明 比 SR FH [F]! A HE “TS AR He Bt AE” 定理 (No Free Lunch Theorem, 简称 NFL 
这 里 的 简化 论述 党 难得 多 . 定理 ) (Wolpert, 1996; Wolpert and Macready, 1995}. 


这 下 子 , 读者 对 机 帮 和 尝 习 的 热情 可 能 密 一 盆 冷 水 沁 表 了: 既然 所 有 尝 习 复 
法 的 期 望 性 能 都 跟随 机 胡 猜 差不多 , 那 还 有 什么 好 学 的 ? 


我 们 需 注 意 到 , NFL 定理 有 一 个 重要 前 提 : 所 有 “问题 ”出 现 的 机 会 相 
同 、 或 所 有 问题 同等 重要 . 但 实际 情形 并 不 是 这 样 . 很 多 时 候 , 我 们 只 关注 自 
己 正 在 试图 解决 的 问题 (例如 某 个 具体 应 用 任务 ), 希望 为 它 找 到 一 个 解决 方案 ， 
至 于 这 个 解决 方案 在 别 的 问题 、 甚 至 在 相似 的 问题 上 是 否 为 好 方案 , 我 们 并 不 
关心 . 例如 , 为 了 快速 从 A 地 到 达 B 地 , 如 果 我 们 正在 考虑 的 A 地 是 南京 
楼 、B 地 是 南京 新 街 口 , 那么 “ 骑 上 自行 车 ”是 很 好 的 解雇 方案 ; 这 个 方案 对 A 
HEERKE, Bb AAG eT ET AT PA RS, 但 我 们 对 此 并 不 关心 . 


事实 上 , 上 面 NFL 定理 的 简短 论述 过 程 中 假设 了 的 均匀 分 布 , 而 实际 情 
形 并 非 如 此 . 例如 , 回 到 我 们 熟悉 的 西瓜 问题 , 考虑 {假设 1: 好 瓜 > (E= a) 
A (AR FMEA) A ( 芯 声 = 浊 啊 )} 和 {假设 2: 好 瓜 <> ( 色 洋 =*) A (AR TE HE) 
A (S= e) 从 NEL 定理 可 知 , 这 两 个 假设 同样 好 . 我 们 立即 会 想到 符合 
条 件 的 例子 , 对 好 瓜 ( 色 泽 = 青 绿 ; AR A ESA; 豫 声 = 浊 啊 ) 是 假设 1 更 好 , 而 对 
kf MN (=; 根 带 = 人 硬挺; 琶 声 = 清脆 ) 则 是 假设 2 更 好 . 看 上 去 的 确 是 这 
Fe. AM PIERS, “OAR =A, mer)” HORI aS OL, 而 “( 根 带 = 便 
BE; mx Tae)” Ae, 甚至 不 和 存在. 


所 以 , NFL 定理 最 重要 的 写意, 是 让 我 们 清楚 地 认识 到 , 脱离 具体 问题 , 空 
泛 地 谈论 “什么 学 习 算 法 更 好 ” 毫 无 意义 , 因为 者 考虑 所 有 潜在 的 问题 , 则 所 
有 学 习 算 法 都 一 样 好 . 要 谈论 算法 的 相对 优 劣 , 必须 要 针对 具体 的 学 习 问 题 ; 在 
某 些 问题 上 表现 好 的 学 习 算 法 , 在 男 一 些 问题 上 却 可 能 不 尽 如 人 人意 , 学 习 算 法 
目 身 的 归 约 俩 好 污 问 题 是 否 相配 , 往往 会 起 到 决定 性 的 作用 . 
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PRIA “知识 就 是 力量 ”. 


1965 年 ，Feigenbaum 主 
持 研 制 了 世界 上 第 一 个 专 
家 系统 DENDRAL. 


参见 p.22. 


IWML 后 来 发 展 为 国际 
机 器 学 习 会 议 ICML. 


1.5 发 展 历 程 


机 器 学 习 是 人 工 智 能 (artificial intelligence) 研 究 发 展 到 一 定 阶 段 的 必然 产 
物 . 二 十 世纪 五 十 年 代 到 七 十 年 代 初 , 人 工 智 能 研究 处 于 “推理 期 ”, 那 时 人 们 
以 为 只 要 能 赋予 机 器 逻辑 推理 能 力 , 机 器 束 能 具有 智能 . 这 一 阶段 的 代表 性 工 
作 主 要 有 A. Newell 和 H. Simon 的 “逻辑 理论 家 ”(Logic Theorist) 程 序 以 及 
此 后 的 “通用 问题 求解 ”(General Problem Solving) 程 序 等 , 这 些 工 作 在 当时 
取得 了 令 人 振奋 的 结果 . 例如 ，“ 膛 辑 理 论 家 ”程序 在 1952 年 证 明了 著名 数学 
家 罗素 和 怀特 海 的 名 车 《 数 学 原理 》 中 的 38 条 定理 , 在 1963 年 证 明了 全 部 52 
条 定理 , 特别 值得 一 提 的 是 , 定理 2.85 甚至 比 罗 素 和 怀特 海 证 明 得 更 巧妙 . A. 
Newell 和 H. Simon 因为 这 方面 的 工作 获得 了 1975 年 图 灵 奖 . 然而 , 随 看 研究 
AU ACRE, 人 们 逐渐 认识 到 , 仅 具 有 逻辑 推理 能 力 是 和 还 和 还 实现 不 了 人 工 智 能 的 . 
E. A. Feigenbaum AWA, 要 使 机 器 具有 智能 , 就 必须 设法 使 机 器 拥有 知识 . 
在 他 们 的 倡 寻 下 , 从 二 十 世纪 七 十 年 代 中 期 开始 人工 智能 研究 进入 了 “知识 
期 ”. 在 这 一 时 期 , 大 量 专家 系统 问世 , 在 很 多 应 用 领域 取得 了 大 量 成 果 . E. A. 
Feigenbaum 作为 “知识 工程 ”之 父 在 1994 年 获得 图 灵 奖 . 但 是 ,人们 逐渐 认 
识 到 , 专家 系统 面临 “知识 工程 瓶颈 ”, 简单 地 说 , 就 是 由 人 来 把 知识 总 结 出 来 
再 教 给 计算 机 是 相当 困难 的 . 于 是 ,一些 学 者 想到 , 如 果 机 器 目 己 能 够 学 习 知 识 
该 多 好 ! 

事实 上 , 图 元 在 1950 年 关于 图 灵 测 试 的 文章 中 , 就 曾 提 到 了 机 器 学 习 的 可 
fe; 二 十 世纪 五 十 年 代 初 已 有 机 器 竺 习 的 相关 研究 , 例如 A. Samuel 4 ME 
棋 程 序 . 五 十 年 代 中 后 期 , 基于 神经 网 络 的 “连接 主义 ”(connectionism) 学 习 
开始 出 现 , 代表 性 工作 有 F. Rosenblatt 的 感知 机 (Perceptron)、B. Widrow 的 
Adaline 等 . 在 六 七 十 年 代 , 基于 逻辑 表示 的 “符号 主义 ”(symbolism) 学 习 技 
AN FACE, 代表 性 工作 有 P. Winston 的 “结构 学 习 系 统 ”、R.. S. Michalski 
等 人 的 “基于 逻辑 的 归纳 学 习 系 统 ”、E. B. Hunt 等 人 的 “概念 学 习 系 统 ” 
等 ; 以 决策 理论 为 基础 的 学 习 技 术 以 及 强化 学 习 技 术 等 也 得 到 发 展 , 代表 性 工 
A N. J. Nilson WY “ULAR” S$, 二 十 多 年 后 红 极 一 时 的 统计 学 习 理 论 的 
一 些 民 基 性 结果 也 是 在 这 个 时 期 取得 的 . 

1980 FR, 在 美国 卡 奎 基 梅 隆 大 学 举行 了 第 一 届 机 器 学 习 研 讨 会 (IWMTL ); 
同年 ， 《策略 分 析 与 信息 系统 》 连 出 三 期 机 器 学 习 专 辑 ; 1983 Œ, Tioga 出 版 社 
出 版 了 R.S. Michalski, J. G. Carbonell 和 T. Mitchell 主编 的 《机 器 学 习 : 一 
种 人 工 智 能 途径 》[Michalski et al., 1983], 对 当时 的 机 器 学 习 研 究 工 作 进 行 了 
总 结 ; 1986 年 , 第 一 本 机 器 学 习 专业 期 刊 Machine Learning 创刊 ; 1989 年 A 


1.5 发 展 历程 


参见 第 4 章 . 


这 时 实际 是 ILP 的 前 身 . 
参见 第 15 章 . 
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工 智能 领域 的 权威 期 刊 Artificial Intelligence 出 版 机 器 学 习 专 辑 , 刊 发 了 当时 
一 些 比较 活跃 的 研究 工作 , 其 内 容 后 来 出 现在 J. G. Carbonell 主编 、MIT 出 
版 社 1990 年 的 《机 器 学 习 : 范 型 与 方法 》[Carbonell, 1990] 一 书 中 . 总 的 来 看 ， 
二 十 世纪 八 二 年代 是 机 器 学 习 成 为 一 个 独 芯 的 学 科 领 域 、 各 种 机 器 学 习 技 术 
A HENIE KIHT HH. 


R. S. Michalski 等 人 [Michalski et al., 1983] 把 机 器 学 习 研 究 划分 为 “从 样 
例 中 学 习 ”“ 在 问题 求解 和 规划 中 学 习 ”“ 通 过 观察 和 发 现 学 习 ”“ 从 指令 
中 学 习 ” 等 种类; E. A. Feigenbaum 等 人 在 著名 的 《人 工 智 能 手册 》 (第 三 卷 ) 
[Cohen and Feigenbaum, 1983] F, 则 把 机 器 学 习 划 分 为 “机 械 学 习 ” “PÄ 
学 习 ” “类 比 学 习 ” 和 “归纳 学 习 ”. 机 机 学 习 亦 称 “ 死 记 便 背 式 学 习 ”, BH 
把 外 界 竹 入 的 信息 全 部 记录 下 来 , 在 南 要 时 原封 不 动 地 取出 来 使 用 , 这 实际 上 
没有 进行 真正 的 学 习 , 仅 是 在 进行 信息 存储 与 检索 ; 示 教 学 习 和 类 比 学 习 类 似 
F R. S. Michalski 等 人 所 说 的 “从 指令 中 学 习 ” 和 “通过 观察 和 发 现 学 习 ”; 
归纳 学 习 相 当 于 “从 样 例 中 学 习 ”, 即 从 训练 样 例 中 归纳 出 学 习 结 果 . 二 十 世 
纪 八 十 年 代 以 来 , 被 研究 最 多 、 应 用 最 广 的 是 “从 样 例 中 学 习 ”( 也 就 是 广义 
的 归纳 学 习 ), cm eS. eS as, 本 书 大 部 分 内 容 均 属 此 范畴 . 
下 面 我 们 对 这 方面 主流 拉 术 的 演进 做 一 个 人 简单 回顾 . 


在 二 十 世纪 八 二 年代，“ 从 往 例 中 学 习 ” 的 一 大 主 沉 是 和 从 写 主 义学 习 ， 
其 代表 包括 决策 树 (decision tree) 和 基于 逻辑 的 学 习 . 典型 的 决策 树 学 习 以 信 
ie A sea, Ufa BM Re) A A te, 直接 模拟 了 人 类 对 概念 进行 判定 的 
树 形 流程 . 茜 于 册 辑 的 学 习 的 著名 代表 是 归纳 迪 辑 程序 设计 (Inductive Logic 
Programming, 简称 ILP), 可 看 作 机 占 学 习 与 逻辑 程序 设计 的 交叉 , 它 使 用 一 
阶 远 辑 ( 即 谓词 地 辑 ) 来 进行 知识 表示 , 通过 修改 和 扩充 逐 辑 表 达 陈 (例如 Prolog 
表达 式 ) 来 完成 对 数据 的 归纳 . 符号 主义 学习 鼎 据 主流 地 位 与 整个 人 工 智 能 领域 
的 发 展 历 程 是 分 不 开 的 . 前 面 说 过 , 人 工 智 能 在 二 十 世纪 五 十 到 八 十 年 代 经 历 
了 “推理 期 ”和 “知识 期 ”, 在 “推理 期 ”人 们 基于 符号 知识 表示 、 通 过 演绎 
推理 技术 取得 了 很 大 成 就 , 而 在 “知识 期 ”人 们 基于 符号 知识 表示 、 通 过 获取 
和 利用 领域 知识 来 建立 专家 系统 取得 了 大 量 成 果 , 因此 , 在 “学 习 期 ”的 开始 ， 
人 特写 知识 表示 很 卓然 地 受到 青睐 . 事实 上 , 机 器 和 学习 在 二 十 世纪 八 十 年 代 正 是 
和 被 视 为 “解决 知识 工程 瓶颈 问题 的 天 键 ” 而 走 上 人 工 智 能 主 舞台 的 . 决策 树 学 
习 技 术 由 于 简单 易 用 , 到 今天 仍 是 最 常用 的 机 器 学 习 技 术 之 一 . LP 具有 很 强 
的 知识 表示 能 力 , 可 以 较 容 易 地 表达 出 复杂 数据 关系 , 而 且 领 域 知识 通常 可 方 
便 地 通过 逻辑 表达 式 进 行 描 述 , 因此 , ILP 不 仅 可 利用 领域 知识 辅助 学 习 , 还 可 
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SIL 5, 


参见 第 6 =, 


参见 习题 6.5. 


第 1 章 & 论 


通过 学 习 对 领域 知识 进行 精 化 和 增强 ; 然而 , at Ay. Weta al, 由 于 表示 能 
力 太 强 , 直接 导致 学 习 过 程 面 临 的 假设 空间 太 大 、 复 杂 度 极 高 , 因此 , 问题 规模 
稍 大 就 难以 有 效 进 行 学 习 , 九 十 年 代 中 期 后 这 方面 的 研究 相对 陷入 低 测 . 

二 十 世纪 九 十 年 代 中 期 之 前 “从 样 例 中 和 学习” 的 画 一 主流 拉 术 是 基于 和 神 
经 网 络 的 连接 主义 学 习 . 连接 主义 学 习 在 二 十 世纪 五 十 年 代 取 得 了 大 发 展 , 但 
因为 早期 的 很 多 人 工 智 能 研究 者 对 符号 表示 有 特别 偏爱 , 例如 图 灵 奖 得 主 H. 
Simon 曾 断 言 人工 智能 是 研究 “对 智能 行为 的 符号 化 建 模 ”, 所 以 当时 连接 主 
义 的 研究 未 被 纳入 主流 人 工 智 能 研究 范畴 . 尤其 是 连接 主义 上 自 喘 也 过 到 了 很 大 
的 障碍 , 正如 图 灵 奖 得 主 M. Minsky 和 S. Papert 在 1969 年 指出 , (当时 的 ) 神 经 
网 络 只 能 处 理 线 性 分 类 , 甚至 对 “ 异 或 ”这 么 简单 的 问题 都 处 理 不 了 . 1983 F, 
J. J. Hopfield 利用 神经 网 络 求解 “流动 推销 员 问 题 ” 这 个 著名 的 NP 难题 取得 
重大 进展 , 使 得 连接 主义 重新 受到 人 们 关注 . 1986 Æ, D. E. Rumelhart 等 人 重 
Bt ACW T EAA BP 算法 , 产生 了 深远 影响 . 与 符号 主义 学 习 能 产生 明确 的 概 
念 表 示 不 同 , 连接 主义 学 习 产 生 的 是 “黑箱 ”模型 , 因此 从 知识 获取 的 角度 来 
看 , 连接 主义 学 习 技 术 有 明显 弱 拟 ; 然而 , 由 于 有 BP 这 样 有 效 的 算法 , 使 得 它 
可 以 在 很 多 现实 问题 上 发 挥 作 用 . 事实 上 , BP 一 卫 是 被 应 用 得 最 广泛 的 机 器 
学 习 算 法 之 一 . 连接 主义 学 习 的 最 大 局 限 是 其 “ 试 错 性 ”; 简单 地 说 , 其 学 习 过 
程 涉及 大 量 参 数 , 而 参数 的 设置 缺乏 理论 指导 , 主要 靠 手 工 “ 调 参 ”; 硅 张 一 点 
说 , BRA ERZ EZME, 学 习 结 果 可 能 证 以 干 里 . 


二 十 世纪 九 十 年 代 中 期 “统计 学 习 ”(statistical learning) tN Fe 7 iH FF 
迅速 占据 主流 舞台 , 代表 性 技术 是 文 持 回 量 机 (Support Vector Machine, 简称 
SVM) 以 及 更 一 和 股 的 “ 核 方法 ”(kernel methods). 这 方面 的 研究 早 在 二 十 世 
纪 六 七 十 年 代 就 已 开始 , 统计 学 习 理 论 [Vapnik, 1998] 在 那个 时 期 也 已 打下 
了 基础 , 例如 V. N. Vapnik Æ 1963 年 提出 了 “支持 向 量 ” 概 念 , 他 和 A. J. 
Chervonenkis 在 1968 年 提出 VC 维 , 在 1974 年 提出 了 结构 风险 最 小 化 原则 等 . 
但 直到 九 十 年 代 中 期 统计 学 习 才 开始 成 为 机 器 学 习 的 主流 , 一 方面 是 由 于 有 效 
的 记 持 同 量 机 算法 在 九 十 年 代 初 才 被 提出 , 其 优越 性 能 到 九 十 年 代 中 期 在 文 
本 分 类 应 用 中 才 得 以 显现 ; 另 一 方面 , 正 是 在 连接 主义 学 习 技 术 的 局 限 性 凸显 
之 后 , 人 们 才 把 目光 转向 了 以 统计 学 习 理 论 为 直接 文 撑 的 统计 学 习 技 术 . 事实 
E, 统计 学 习 与 连接 主义 学 习 有 密切 的 联系 . 在 文 持 癌 量 机 被 普 过 接受 后 , 核 技 
巧 (kernel trick) 被 人 们 用 到 了 机 器 学 习 的 几乎 每 一 个 角落 , 核 方法 也 逐渐 成 为 
机 器 学 习 的 基本 内 容 之 一 . 


有 趣 的 是 , 二 十 一 世纪 初 , 连接 主义 学 习 叉 卷土重来 , 掀起 了 以 “深度 学 


1.6 应 用 现状 


参见 5.6 节 . 


“tM” ALR 2 章 . 
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J” 为 名 的 热潮 . 所 谓 深度 学 习 , 狭义 地 说 就 是 “很 多 层 ” 的 神经 网 络 . 在 若 
干 测试 和 竞赛 上 , 尤其 是 涉及 语音 、 图 像 等 复杂 对 象 的 应 用 中 , 深度 学 习 技 术 
取得 了 优越 性 能 . 以 往 机 器 学 习 技 术 在 应 用 中 要 取得 好 性 能 , 对 使 用 者 的 要 求 
较 高 ; 而 深度 学 习 技 术 涉 及 的 模型 复杂 度 非 常 高 , 以 至 于 只 要 下 工夫 “ 调 参 ”， 
把 参数 调节 好 , 性 能 往往 就 好 . 因此 , 深度 学 习 虽 缺乏 严格 的 理论 基础 , 但 它 显 
车 降低 了 机 器 学 习 应 用 者 的 门槛 , 为 机 器 学 习 技 术 走 向 工程 实践 带 来 了 便利 . 
BBA, 它 为 什么 此 时 才 热 起 来 呢 ? 有 两 个 基本 原因 : 数据 大 了 、 计 算 能 力 强 了 . 
深度 学 习 模 型 拥有 大 量 参 数 , BALD, 则 很 容易 “过 拟 合 ”; 如 此 复杂 的 
模型 、 如 此 大 的 数据 样本 , 若 缺 乏 强 力 计 算 设 备 , 根本 无 法 求解 . 恰 由 于 人 类 进 
入 了 “大 数据 时 代 ”, 数据 储量 与 计算 设备 都 有 了 大 发 展 , 才 使 得 连接 主义 学 
习 技 术 焕 发 又 一 春 . 有 趣 的 是 , 神经 网 络 在 二 十 世纪 八 十 年 代 中 期 走红 , 与 当时 
Intel x86 系列 微 处 理 器 与 内 存 条 技术 的 广泛 应 用 所 造成 的 计算 能 力 、 数 据 访 
存 效率 比 七 十 年 代 有 显著 提高 不 无 关联 . 深度 学 习 此 时 的 状况 , 与 彼 时 的 神经 
网 络 何 其 相似 . 

需 说 明 的 是 , 机 器 学 习 现 在 已 经 发 展 成 为 一 个 相当 大 的 学 科 领 域 , 本 节 仅 
ER PRN, 很 多 重要 技术 都 没有 谈 及 , 耐心 的 读者 在 读 完 本 书后 会 有 更 全 面 
的 了 解 . 


1.6 应 用 现状 


在 过 去 二 十 年 中 , 人 类 收集 、 和 存储 、 传 输 、 人 处 理 数 据 的 能 力 取得 了 飞速 提 
Ft, 人 类 社会 的 各 个 角落 都 积累 了 大 量 数 据 , 鹃 需 能 有 效 地 对 数据 进行 分 析 利 
用 的 计算 机 算法 , 而 机 器 学 习 恰 顺应 了 大 时 代 的 这 个 迫切 需求 , 因此 该 学 科 领 
域 很 自然 地 取得 巨大 发 展 、 受 到 广泛 关注 . 

SR, 在 计算 机 科学 的 诸多 分 文学 科 领 域 中 , 无 论 是 多 媒体 、 图 形 学 , 还 是 
网 络 通 信 、 软 件 工程 , JURA ARTA. itt, 都 能 找到 机 器 学 习 技 术 的 身 
影 , 尤其 是 在 计算 机 视觉 、 目 然 语言 处 理 等 “计算 机 应 用 技术 ”领域 , 机 器 学 
习 已 成 为 最 重要 的 技术 进步 源 果 之 一 . 

机 器 学 习 还 为 许多 交叉 学 科 提 供 了 重要 的 技术 文 撑 . 例如 , “生物 信息 
学 ”试图 利用 信息 技术 来 研究 生命 现象 和 规律 , 而 基因 组 计划 的 实施 和 基因 药 
物 的 美好 愿景 让 人 们 为 之 心潮 涪 洲 .生物 信息 学 研究 涉及 从 “生命 现象 ”到 
“规律 发 现 ” 的 整个 过 程 , 其 则 必然 包括 数据 获取 、 数 据 管 理 、 数 据 分 析 、 仿 
真实 验 等 环节 , 而 “数据 分 析 ” 恰 是 机 器 学 习 技 术 的 舞台 , 各 种 机 器 学 习 技术 
已 经 在 这 个 舞台 上 大 放 异 彩 . 
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NASA-JPL 的 全 称 是 美 
国航 空 航天 局 喷气 推进 实 
验 室 ,著名 的 “勇气 ”号 
和 “ALI” = OK SALA 
均 是 在 这 个 实验 室 研 制 的 ， 


DARPA 的 全 称 是 美国 
国防 部 先进 研究 计划 局 ， 
EKA., AELEZA 
统 等 都 源 于 DARPA 启动 
的 研究 项 目 . 


机 器 学 习 提 供 数据 分 析 
能 力 ， 云 计算 提供 数据 处 
PRA, 从 和 包 提 供 数 据 标 
记 能 力 . 


“数据 控 握 ”这 个 词 很 
早 就 在 统计 学 界 出 现 并 略 
ple, 这 是 由 于 传统 统 
计 学 研究 往往 醉心 于 理论 
的 优美 而 和 起 视 实际 效用 . 
但 最 近 情 况 发 生变 化 ,， A 
来 越 多 的 统计 学 家 开始 关 
注 现实 问题 , 进入 机 器 学 
习 和 数据 挖掘 领域 . 


第 1 章 & 论 


EKE, 随 着 科学 研究 的 基本 手段 从 传统 的 “理论 二 实验” 走 同 现在 的 
“理论 十 实验 十 计算 ”, 乃至 出 现 “ 数 据 科 学 ”这 样 的 提 法 , 机 器 学 习 的 重要 
性 日 趋 显著 , 因为 “计算 ”的 目的 往往 是 数据 分 析 , 而 数据 科学 的 核心 也 恰 是 
通过 分 析 数 据 来 获得 价值 . 大 要 列 出 目前 计算 机 科学 技术 中 最 活跃 、 最 受 瞩 
目的 研究 分 文 , 那么 机 器 学 习 必 居 其 中 . 2001 年 , 美国 NASA-JPL 的 科学 家 
在 Science Aki El JBE [Mjolsness and DeCoste, 2001] 指出 , HLA8 3 XY 
科学 研究 的 整个 过 程 正 起 到 越 来 越 大 的 文 撑 作 用 , 其 进展 对 科技 发 展 意义 重大 . 
2003 Æ, DARPA AJJ PAL 计划 , 将 机 器 学 习 的 重要 性 上 升 到 美国 国家 安全 的 
BERIE. 众所周知 , Se FS Be Som A Be AY wT ST aS XE HL NASA 和 DARPA HE 
进 的 , 而 这 两 大 机 构 不 约 而 同 地 强调 机 器 学 习 的 重要 性 , SE SN TP. 


2006 年 , 卡耐基 梅 隆 大 学 宣告 成 立 世 界 上 第 一 个 “机 器 学 习 系 ”, 机 器 学 
习 领 域 疯 基 人 之 一 工 Mitchell 教授 出 任 首 任 系 主任 . 2012 年 3 月 , 美国 奥巴马 
政府 启动 “大 数据 研究 与 发 展 计 划 ”, 美国 国家 科学 基金 会 旋即 在 加 州 大 学 伯 
克利 分 校 启 动 加 强 计 划 , 强调 要 深入 研究 和 整合 大 数据 时 代 的 三 大 关键 技术 : 
机 器 学 习 、 云 计算 、 众 包 (crowdsourcing). 显然 , 机 器 学 习 在 大 数据 时 代 是 必 
不 可 少 的 核心 技术 , 道理 很 简单 : 收集 、 存 储 、 传 输 、 管 理 大 数据 的 目的 , 是 为 
了 “利用 ”大 数据 , 而 如 果 没 有 机 器 学 习 技 术 分 析 数 据 , 则 “利用 ”无 从 谈 起 . 


谈 到 对 数据 进行 分 析 利 用 , 很 多 人 会 想到 “数据 挖 握 ”(data mining), 这 
里 简单 探讨 一 下 数据 挖 据 与 机 器 学 习 的 联系 . 数据 挖 据 领域 在 二 十 世纪 九 十 年 
代 形 成 , 它 受到 很 多 学 科 领 域 的 影响 , 其 中 数据 库 、 机 器 学 习 、 统 计 学 无 疑 影 
响 最 大 [Zhou, 2003]. 数据 挖 气 是 从 海量 数据 中 发 据 知识 , 这 就 必然 涉及 对 “ 海 
量 数据 ”的 管理 和 分 析 . 大 体 来 说 , 数据 库 领域 的 研究 为 数据 挖掘 提供 数据 管 
理 技术 , 而 机 器 学 习 和 统计 学 的 研究 为 数据 挖掘 提 供 数据 分 析 技术 . 由 于 统计 
学 界 的 研究 成 果 通 常 需要 经 由 机 器 学 习 研 究 来 形成 有 效 的 学 习 算 法 , 之 后 再 进 
入 数据 挖 气 领 域 , 因此 从 这 个 意义 上 说 , 统计 学 主要 是 通过 机 器 学 习 对 数据 控 
据 发 挥 影响 , 而 机 器 学 习 领域 和 数据 库 领域 则 是 数据 挖掘 的 两 大 支撑 

SR, 机 器 学 习 已 经 与 普通 人 的 生活 密切 相关 . 例如 在 天 气 预报 、 能 源 其 
探 、 环 境 监测 等 方面 , 有 效 地 利用 机 器 学 习 技术 对 卫星 和 传感器 发 回 的 数据 进 
行 分 析 , 是 提高 预报 和 检测 准确 性 的 重要 途径 ; 在 商业 营销 中 , 有 效 地 利用 机 器 
学 习 技 术 对 销售 数据 、 客 户 信息 进行 分 析 , 不 仅 可 帮助 商家 优化 库存 降低 成 本 ， 
还 有 助 于 针对 用 户 群 设 计 特殊 营销 策略 ; …… 下 面 再 举 几 例 ; 

众所周知 , 谷歌 、 百 度 等 互联 网 搜索 引擎 已 开始 改变 人 类 的 生活 方式 , 例 
如 很 多 人 已 习惯 于 在 出 行 前 通过 互联 网 搜索 来 了 解 目的 地 信息 、 寻 找 合适 的 


1.6 应 用 现状 


例如 著名 机 器 学 习 教 科 
书 [Mitchell 1997] 4.2 节 介 
绍 了 二 十 世纪 九 十 年 代 蛙 
期 利用 神经 网 络 学 习 来 控 
制 自 动 驾 驶 车 的 ALVINN 
系统 ， 
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酒店 、 和 餐馆 等 . 美国 《新 闻 周 刊 》 曾 对 谷歌 有 一 句 话 评论 : “ 它 使 任何 人 离 任 
何 问题 的 答案 间 的 距离 变 得 只 有 点 击 一 下 鼠标 这 人 么 远 .” 显 然 , 互联 网 搜索 是 
通过 分 析 网 络 上 的 数据 来 找到 用 户 所 需 的 信息 , 在 这 个 过 程 中 , A ev 
Ns RRA REMH, 而 要 建立 输入 与 输出 之 间 的 联系 , 内 核 必 然 需要 机 器 学 
JAR. 事实 上 , 互联 网 搜索 发 展 至 今 , 机 器 学 习 技 术 的 支撑 觅 功 至 伟 . 到 了 今 
R, RREIZ AFHR, 机 需 竺 习 技 术 的 影响 更 为 明显 , 例如 在 进行 
“图 片 搜索 ”时 , 无 论 谷 歌 还 是 百度 都 在 使 用 最 新 潮 的 机 器 学 习 技术 . 谷歌 、 
百度 、 脸 书 、 雅 虎 等 公司 纷纷 成 并 专攻 机 器 学 习 技 术 的 研究 团队 , 甚至 直接 以 
机 器 学 习 拉 术 命 名 的 研究 院 , 充分 体现 出 机 器 学 习 技 术 的 发 展 和 应 用 , 甚至 在 
一 定 程度 上 影响 了 互联 网 产业 的 走 回 . 


表 举 一 例 . 车 祸 是 人 类 最 凶险 的 杀手 之 一 , SUA aE aR EAA AEE 
轮 , 仅 我 国 每 年 就 有 约 十 万 人 死 于 车 宰 . 由 计算 机 来 实现 自动 汽车 驾驶 是 一 个 
理想 的 方案 , 因为 机 器 上 路 时 可 以 确保 不 是 新 手 驾 驻 、 不 会 疲劳 驾驶 , 更 不 会 
酒 后 驾驶 , 而 且 还 有 重要 的 军事 用 途 . 美国 在 二 十 世纪 八 十 年 代 就 开始 进行 这 
方面 研究 . 这 里 最 大 的 困难 是 无 法 在 汽车 厂 里 事先 把 汽车 上 路 后 所 会 过 到 的 所 
有 情况 都 考虑 到 、 设 计 出 处 理 规则 并 加 以 编程 实现 , 而 只 能 根据 上 路 时 过 到 的 
情况 即时 处 理 . 寺 把 车 载 传感器 接收 到 的 信息 作为 输入 , FE Ie. USES AT 
的 控制 行为 作为 输出 , 则 这 里 的 关键 问题 恰 可 抽象 为 一 个 机 器 学 习 任 务 . 2004 
年 3 H, 在 美国 DARPA 组 织 的 自动 驾驶 车 比赛 中 , 斯 坦 福 大 学 机 器 学 习 专 家 
S. Thrun 的 小 组 研制 的 参赛 车 用 6 小 时 53 分 钟 成 功 走 完了 132 英里 赛程 获得 
冠军 . 比赛 路 段 是 在 内 华 达 州 西南 部 的 山区 和 沙漠 中 , 路 况 相 当 复 杂 , 在 这 样 的 
路 段 上 行车 即使 对 经 验 丰 富 的 人 类 司机 来 说 也 是 一 个 挑战 . S. Thrun 后 来 到 谷 
歌 领导 自动 蜀 驶 车 项 目 团队 . 值得 一 提 的 是 , 自动 驾驶 车 在 近 几 年 取得 了 飞跃 
AEE, 除 谷 歌 外 , 通用、 奥迪、 大众 、 宝 马 等 传统 汽车 公司 均 投 入 巨 资 进行 
研发 , 目前 已 开始 有 产品 进入 市 场 . 2011 年 6 H, 美国 内 华 达 州 议 会 通过 法 案 ， 
成 为 美国 第 一 个 认可 自动 欧 驶 车 的 州 , 此 后 , 夏威夷 州 和 佛罗里达 州 也 先后 通 
过 类 似 法 案 . 自动 驾驶 汽车 可 望 在 不 久 的 将 来 出 现在 普通 人 的 生活 中 , 而 机 器 
学 习 技 术 则 起 到 了 “司机 ”作用 . 


机 器 学 习 技 术 甚至 已 影响 到 人 类 社会 政治 生活 . 2012 年 美国 大 选 期 间 , 奥 
巴 马 磨 下 有 一 支 机 器 学 习 团队 , 他 们 对 各 类 选 情 数据 进行 分 析 , 为 奥巴马 提示 
下 一 步 竞 选 行动 . 例如 他 们 使 用 机 器 学 习 技术 分 析 社 交 网 络 数据 , 判断 出 在 总 
统 候选 人 第 一 次 辩论 之 后 哪些 选民 会 倒戈 , 并 根据 分 析 的 结果 开发 出 个 性 化 宣 
传 策略 , 能 为 每 位 选民 找 出 一 个 最 有 说 服 力 的 挽留 理由 ; 他 们 基于 机 器 学 习 模 
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WEKA 是 著名 的 免费 
机 器 学 习 算 法 程序 库 ， 由 
ar 西 兰 Waikato A AF 
究 人 员 基 于 JAVA 开发 : 
http: www.cs.waikatc. 
ac.nz/ml/weka/. 
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型 的 分 析 结 果 提示 奥巴马 应 去 何 处 开展 拉票 活动 ,有些 建 议 甚至 让 专业 竞选 顾 
la] KAZ — BR, 而 结果 表明 去 这 些 地 方 大 有 收获 .总 统 选举 需要 大 量 金 钱 , 机 器 
学 习 技 术 在 这 方面 发 挥 了 奇效 . 例如 , 机 器 学 习 模 型 分 析出 , 某 电 影 明星 对 某 
地 区 某 年 龄 段 的 特定 人 群 很 有 吸引 力 , 而 这 个 群体 很 愿意 出 高 价 与 该 明星 及 奥 
巴 马 共 进 晚餐 …… 人 果然, OE UR AS TE A BE MI SRB 1500 JRI; 最 终 , 从 
助 机 器 学 习 模 型 , 奥巴马 筹 到 了 创 纪 录 的 10 亿美 元 竞选 经 费 . 机 器 学 习 技 术 不 
仅 有 助 于 竞选 经 费 “ 开 源 ”, 还 可 帮助 “ 节 流 ”, 例如 机 器 学 习 模 型 通过 对 不 
同和 群体 选民 进行 分 析 , 建议 购买 了 一 些 冷 门 节目 的 广告 时 段 , 而 没有 采用 在 昂 
贯 的 黄金 时 段 购买 广告 的 传统 做 法 , 使 得 广告 资金 效率 相 比 2008 年 竞选 提高 
T 14%; won 胜 选 后 ， 《时代 》 周 刊 专门 报道 了 这 个 被 奥巴马 称 为 “竞选 核武 
器 ”、 由 半 监 督学 习 研 究 专家 R. Ghani 领导 的 团队 . 

值得 一 提 的 是 , 机 器 学 习 备 受 瞩 目 当 然 是 由 于 它 已 成 为 智能 数据 分 析 技 术 
AY) Gi) er vei, 但 机 器 学 习 研 究 还 有 另 一 个 不 可 忽视 的 意义 , 即 通过 建立 一 些 关 
于 学 习 的 计算 模型 来 促进 我 们 理解 “人 类 如 何 学 习 ”. 例如 , P. Kanerva 在 二 
十 世纪 八 十 年 代 中 期 提出 SDM (Sparse Distributed Memory) 模 型 [Kanerva, 
1988] 时 并 没有 刻意 模仿 脑 生 理 结 构 , 但 后 来 神经 科学 的 研究 发 现 , SDM 的 稀 
醒 编 码 机 制 在 视觉 、 听 觉 、 噢 觉 功 能 的 脑 诺 层 中 广泛 存在 , 从 而 为 理解 脑 的 某 
些 功 能 提供 了 一 定 的 局 发 . 目 然 科 学 研究 的 驱动 力 归结 起 来 无 外 是 人 类 对 宇宙 
本 源 、 万 物 本 质 、 生 命 本 性 、 上 自我 本 识 的 好 奇 , 而 “人 类 如 何 学 习 ” 无 疑 是 一 
个 有 关 自 我 本 识 的 重大 问题 . 从 这 个 意义 上 说 , 机 器 学 习 不 仅 在 信息 科学 中 占 
有 重要 地 位 , 还 具有 一 定 的 自然 科学 探索 色彩 . 


1.7 阅读 材料 


[Mitchell, 1997] 是 第 一 本 机 器 学 习 专 门 性 教材 , [Duda et al., 2001; Al- 
paydin, 2004; Flach, 2012] 都 是 出 色 的 入 门 读物 . [Hastie et al., 2009] 是 很 好 
ET EW, [Bishop, 2006] 也 很 有 参考 价值 , 尤其 适合 于 见 叶 斯 学 习 依 好 者 . 
[Shalev-Shwartz and Ben-David, 2014] 则 适合 于 理论 偏好 者 . [Witten et al., 
2011] 是 基于 WEKA 撰写 的 入 门 读物 , 有 助 于 初学 者 通过 WEKA 实践 快速 掌 
握 常 用 机 器 学 习 算 法 . 

本 书 1.5 和 1.6 节 主 要 取材 于 [周志 华 , 2007]. 《机 器 学 习 : 一 种 人 工 智能 
途径 》 [Michalski et al., 1983] 汇集 了 20 位 学 者 撰写 的 16 篇 文章 , 是 机 史学 习 
早期 最 重要 的 文献 . 该 书 出 版 后 产生 了 很 大 反响 , Morgan Kaufmann 出 版 社 后 
来 分 别 于 1986 年 和 1990 年 出 版 了 该 书 的 续篇 , 编 为 第 二 卷 和 第 三 着 . 《人 工 


1.7 阅读 材料 


深度 学 习 春 见 5.6 节 ， 


规则 学 习 泰 见 第 15 =. 


集成 学 习 参 见 第 8 章 . 
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智能 手册 》 系列 是 图 灵 奖 得 主 E. A. Feigenbaum 与 不 同学 者 合作 编写 而 成 , 该 
书 第 三 卷 [Cohen and Feigenbaum, 1983] 对 机 器 学 习 进 行 了 讨论 , 是 机 器 学 习 
早期 的 重要 文献 . [Dietterich, 1997] 对 机 器 学 习 领 域 的 发 展 进 行 了 评述 和 展望 . 
早期 的 很 多 文献 在 今天 仍 值得 重视 , 一 些 办 光 的 思想 在 相关 技术 进步 后 可 能 焕 
ACA NS TI, 例如 了 近来 流行 的 “迁移 学 习 ” (transfer learning) [Pan and Yang, 
2010], 恰似 “类 比 学 习 ”(learning by analogy) 在 统计 学 习 技术 大 发 展 后 的 升 
级 版 ; 红 极 一 时 的 “深度 学 习 ”(deep learning) 在 思想 上 并 未 显著 超越 二 十 世 
纪 八 十 年 代 中 后 期 神经 网 络 学 习 的 研究 . 


机 器 学 习 中 关于 概念 学 习 的 研究 开始 很 早 , 从 中 产生 的 不 少 思想 对 整个 
领域 都 有 深远 有 影 啊 . 例如 作为 主流 学 习 拉 术 之 一 的 决 芝 树 和 学 习 , MWETA 
于 概念 形成 的 树 结 构 研 究 [Hunt and Hovland, 1963]. [Winston, 1970] 在 闭 
名 的 “积木 世界 ”研究 中 , 将 概念 学 习 与 基于 泛 化 和 特 化 的 搜索 过 程 联 系 起 
来 . [Simon and Lea, 1974] 较 早 提出 了 人 “学习 ”是 在 假设 空间 中 搜索 的 观点 . 
[Mitchell, 1977] 稍 后 提出 了 版 本 空间 的 概念 . 概念 学 习 中 有 很 多 关于 规则 学 习 
AR. 


B -Ru J R U EE- A a BO a FRE i, 它 在 目 然 科 学 如 
物理 学 、 天 文学 等 领域 中 是 一 个 广 为 沿用 的 基础 性 原则 , 例如 哥 白 尼 坚 持 “ 日 
心 说 ”的 理由 之 一 就 是 它 比 托 勒 密 的 “地 心 说 ”更 人 简单 且 和 符合 天 文 观测 . 奥 
卡 姆 剃刀 在 机 器 和 尝 习 领域 也 有 很 多 退 随 者 [Blumer et al., 1996]. 但 机 器 和 学习 
中 什么 是 “更 简单 的 ”这 个 问题 一 直 困 扰 着 研究 者 们 , 因此 , 对 奥 卡 姆 剃刀 在 
机 器 学 习 领 域 的 作用 一 直 存 在 着 争议 [Webb, 1996; Domingos, 1999]. 需 注意 
的 是 , 奥 卡 姆 剃刀 并 非 科 学 研究 中 唯一 可 行 的 假设 选择 原则 , 例如 古 和 希腊 哲学 
家 伊 壁 鸠 鲁 ( 公 元 前 341 年 -前 270 年 ) 提 出 的 “多 释 原 则 ” (principle of multiple 
explanations), 主张 保留 与 经 验 观 察 一 致 的 所 有 假设 [Asmis, 1984], 这 与 集成 
学 习 (ensemble learning) 方 面 的 研究 更 加 吻合 . 


机 器 学 习 领 域 最 重要 的 国际 学 术 会 议 是 国际 机 器 学 习 会 议 (ICML)、 国 际 
神经 信息 处 理 系统 会 议 (INIPS) 和 国际 学 习 理 论 会 议 (COLT), 重要 的 区 域 性 会 
议 主 要 有 欧洲 机 器 学 习 会 议 (ECML) 和 亚洲 机 器 学 习 会 议 (ACML); 最 重要 的 
国际 学 术 期 刊 是 Journal of Machine Learning Research 和 Machine Learning. 
人 工 智 能 领域 的 重要 会 议 如 IJCAI、AAAI 以 及 重要 期 刊 如 Artificial Intelli- 
gence. Journal of Artificial Intelligence Research, 数据 挖掘 领域 的 重要 会 议 
如 KDD、ICDM REETH ACM Transactions on Knowledge Discovery 
from Data. Data Mining and Knowledge Discovery, 计算 机 视觉 与 模式 识别 
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领域 的 重要 会 议 如 CVPR 以 及 重要 期 刊 如 IEEE Transactions on Pattern 
Analysis and Machine Intelligence, 神经 网 络 领域 的 重要 期 刊 如 Neural Com- 


putation, IEEE Transactions on Neural Networks and Learning Systems 等 


也 经 常 发 表 机 器 学 习 方 面 的 论文 . 此 外 , 统计 学 领域 的 重要 期 刊 如 Annals of 
Statistics 等 也 遂 有 关于 统计 学 习 方 面 的 理论 文章 发 表 . 

国内 不 少 书籍 包含 机 器 学 习 方面 的 内 容 , 例如 [ 陆 汝 铃 , 1996]. [ 李 航 , 2012] 
是 以 统计 学 习 为 主题 的 读物 . 国内 机 器 学 习 领 域 最 主要 的 活动 是 两 年 一 次 
的 中 国 机 器 学 习 大 会 (CCML) 以 及 每 年 举行 的 “机 器 学 习 及 其 应 用 ”研讨 
会 (MLA); 很 多 学 术 刊 物 都 经 常 刊登 有 关机 器 学 习 的 论文 . 


习题 


习题 
1.1 
1.2 
析 合 范式 即 多 个 合 取 式 
的 析 取 . 


提示 : 注意 元 余 情 况 ， 
(A=a)v (A= +) 
与 (A= +) 等 价 . 


即 不 存在 训 头 错误 为 0 1.3 
的 假设 . 


1.4* 


1.5 
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表 1.1 中 若 只 包含 编号 为 1 和 4 的 两 个 样 例 , 试 给 出 相应 的 版 本 空间 . 
与 使 用 单个 合 取 式 来 进行 假设 表示 相 比 , 使 用 “ 析 合 范式 ”将 使 得 候 
设 空间 具有 更 强 的 表示 能 力 . 例如 
好 瓜 <> ( (色泽 = *) A (HRA EME) A ( 敲 声 = *)) 
v (( 色 洋 = 乌 黑 ) A (ALAR *) A (=e), 
会 把 “(色泽 = 青绿 ) 人 AR RES) A ( 敲 声 = 清脆 ) ”以 及 “( 色 泽 = 
乌黑 ) 人 ( 根 蒂 = 硬挺 ) A ( 敲 声 = 沉 问 ) ”都 分 类 为 “好 瓜 ”. 若 使 用 最 


BAG k PEAT HTS WETHER IA 1.1 西瓜 分 关 问 题 的 假设 衬 
A), 斌 估算 共有 多 少 种 可 能 的 假 议 . 


Ai BG Le eR, 则 假设 空间 中 有 可 能 不 存在 与 了 折 有 训练 样本 部 一 致 
的 假设 . 在 此 情形 下 , 试 议 计 一 种 归纳 俩 好 用 于 假 议 选择 . 


本 章 1.4 节 在 论述 “没有 免费 的 午餐 ”定理 时 , 默认 使 用 了 “分 类 错 
误 率 ” 作 为 性 能 度量 来 对 分 类 器 进行 评估 . 车 换 用 其 他 性 能 度量 2, 则 
式 (1.1) 将 改 为 
Eve(SBalX,f1)=2, Dd) Plw)e(h(w), f (x))P (h |X, La) ， 
h ZEX—X 


斌 证明“ 没有 人 免费 的 午餐 定理 ” 仍 成 并. 
试 述 机 器 学 习 能 在 互联 网 搜索 的 哪些 环节 起 什么 作用 . 
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小 故事 : “机 器 学 习 ” 名 字 的 由 来 
1952 年 , fy - FWA (Arthur Samuel, 1901—1990) 
在 IBM 公司 研制 了 一 个 西洋 跳棋 程序 , 这 个 程序 具有 自 
学 习 能 力 , 可 通过 对 大 量 棋 局 的 分 析 逐 渐 准 识 出 当前 局 面 
Ray “srt” Fn “SRA” | 从 而 不 断 提高 弈 棋 水 平 , 并 很 
革命 丈 模 程序 实 质 上 使 。 快 就 下 说 了 萨 缘 尔 自己 . 1956 年 ， 萨 绿 尔 应 约 输 .麦卡锡 
第 16 章 . (John McCarthy，“ 人 工人 智能 之 父 ”, 1971 年 图 灵 奖 得 主 ) ZB, 在 标志 着 人 
工 逢 能 学 科 诞 生 的 达 特 茅 斯 会 议 上 介绍 这 项 工作 . 萨 继 尔 发 明了 “机 器 学 习 ” 
这 个 词 , 将 其 定义 为 “不 显 式 编程 地 赋予 计算 机 能 力 的 研究 领域 ”. 他 的 文 
= “Some studies in machine learning using the game of checkers” 1959 年 在 
IBM Journal 正式 发 表 后 , 爱德华 + FAR 4 (Edward Feigenbaum, “#17, I 
程 之 父 ”, 1994 年 图 灵 奖 得 主 ) 为 编写 其 巨著 Computers and Thought, 在 1961 
年 邀请 萨 缕 尔 提 供 一 个 该 程序 最 好 的 对 弈 实例 . 于 是 , PBR AL KS 
州 的 跳棋 冠军 、 当 时 全 美 排 名 第 四 的 棋 手 发 起 了 挑战 , 结果 萨 纱 尔 程序 获胜 ， 
EGA S| RH. 
事实 上 , PRB AR BRAT REA LS ER PE YT BAB, 还 影响 到 
整个 计算 机 科学 的 发 展 . 早期 计算 机 科学 研究 认为 , 计算 机 不 可 能 完成 事先 没 
有 显 式 编程 好 的 任务 , 而 萨 缪 尔 跳 棋 程 序 否 证 了 这 个 假设 . 为 外 , 这 个 程序 是 最 
早 在 计算 机 上 执行 非 数 值 计算 任务 的 程序 之 一 , 其 逻辑 指令 设计 思想 极 大 地 影 
响 了 IBM 计算 机 的 指令 集 , 并 很 快 被 其 他 计算 机 的 设计 者 采用 . 


精度 常 写 为 百分比 形式 
(1— =) x 100%. 


这 里 所 说 的 “误差 ” 均 
指 误差 期 望 ， 


在 后 面 的 章节 中 将 介绍 
不 同 的 学 习 算 法 如 何 最 小 
化 经 验 误 差 . 


过 拟 舍 亦 称 “过 配 ” . 
kiei “RA” ， 


学 习 能 力 是 否 “ 过 于 强 
K” , 是 由 学 习 算 法 和 数 
据 内 涵 共 同 决定 的 . 


第 2 章 模型 评估 与 选择 


2.1 经 验 误差 与 过 拟 合 


通 帝 我 们 把 分 类 错误 的 样本 数 占 样本 总 数 的 比例 称 为 “ 销 误 率 ”(error 
rate), HWRE m 个 样本 中 有 a PREPARA, MEERE E = a/m; 相应 的 ， 
1 一 a/m 称 为 “精度 ”(accuracy), 即 “ 精 度 = 1 一 错误 率 ”. 更 一 般 地 , 我 们 把 
学 习 胡 的 实际 预测 输出 与 样本 的 真实 输出 之 同 的 差异 称 为 “误差 ”(error)， 
学 习 器 在 训练 集 上 的 误差 称 为 “训练 误差 ”(training error) 或 “经 验 误 
2” (empirical error), 在 淅 样本 上 的 误差 称 为 “ 泛 化 误差 ”(generalization 
error). 显然 , NPBA RAD SS as. 然而 , 我 们 事先 并 不 知道 新 
样本 是 什么 样 , 实际 能 做 的 是 努力 使 经 验 误 和 最 小 化 . 在 很 多 情况 下 , 我 们 可 以 
学 得 一 个 经 验 误 差 很 小 、 在 训练 集 上 表现 很 好 的 学 习 器 , 例如 甚至 对 所 有 训练 
样本 都 分 类 正确 , 即 分 类 错误 率 为 零 , 分 类 精度 为 100%, 但 这 是 不 是 我 们 想 要 
的 学 习 器 呢 ? 遗憾 的 是 , 这 样 的 学 习 器 在 多 数 情况 下 都 不 好 . 

我 们 实际 希望 的 , 是 在 新 样本 上 能 表现 得 很 好 的 学 习 器 . 为 了 达到 这 个 
目的 , 应 该 从 训练 样本 中 尽 可 能 学 出 适用 于 所 有 潜在 样本 的 “ 普 衣 规律”, 这 
样 才 能 在 过 到 新 样本 时 做 出 正确 的 判别 . 然而 , 当 学 习 器 把 训练 样本 学 得 “ 太 
好 ”了 的 时 候 , 很 可 能 已 经 把 训练 样本 上 自 呈 的 一 些 特点 当 作 了 所 有 潜在 样本 者 
会 具有 的 一 般 性 质 , 这 样 束 会 导致 泛 化 性 能 下 降 . 这 种 现象 在 机 器 学 习 中 称 为 
“过 拟 合 ”(overfitting). 与 “过 拟 合 ”相对 的 是 “从 拟 合 ”(underfitting), 这 
是 指 对 训练 样本 的 一 般 性 质 尚 未 学 好 . 图 2.1 给 出 了 关于 过 拟 合 与 欠 拟 合 的 一 
个 便于 直观 理解 的 类 比 . 

有 多 种 因素 可 能 导致 过 拟 合 , 其 中 最 常见 的 情况 是 由 于 学 习 能 力 过 于 强大 ， 
以 至 于 把 训练 样本 所 包含 的 不 太一 般 的 特性 都 学 到 了 , 而 欠 拟 合 则 通常 是 由 
于 学 习 能 力 低 下 而 造成 的 . RAMA DSR, 例如 在 决策 树 学 习 中 扩展 分 
变 、 在 神经 网 络 学 习 中 增加 训练 轮 数 等 , MWA WR. 在 后 面 的 学 习 中 
我 们 将 看 到 , 过 拟 合 是 机 器 学 习 面 临 的 关键 障碍 , 各 类 学 习 算 法 都 必然 和 市 有 一 
些 针对 过 拟 合 的 措施 ; 然而 必须 认识 到 , 过 拟 合 是 无 法 彻底 避免 的 , 我 们 所 能 做 
的 只 是 “缓解 ”, 或 者 说 减 小 其 风险 . 关于 这 一 点 , 可 大 致 这 样 理解 : 机 器 和 学习 
面临 的 问题 通常 是 NP 难 甚 至 更 难 , 而 有 效 的 学 习 算 法 必然 是 在 多 项 式 时 则 内 
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在 现实 任务 中 往往 还 会 
者 虑 时 间 开 和 销 、 存 储 开 
销 、 可 解释 性 等 方面 的 因 
素 , 这 里 暂且 只 考虑 泛 化 
误差 ， 
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it fu FR! ap AER: 
> 不 是 树叶 
( 误 以 为 树叶 必须 有 锯 郑 ) 


2.1 Wwe, RPMS AMAL 


运行 完成 , 若 可 彻底 避免 过 拟 合 , 则 通过 经 验 误差 最 小 化 就 能 获 最 优 解 , 这 就 意 
味 着 我 们 构造 性 地 证 明了 “P=NP”; 因此 , REIH “P ANP” , 过 拟 合 就 
不 可 避免 . 

在 现实 任务 中 , 我 们 往往 有 多 种 学 习 算 法 可 供 选择 , 甚至 对 同一 个 学 习 算 
法 , 当 使 用 不 同 的 参数 配置 时 , 也 会 产生 不 同 的 模型 . 那么 , 我 们 该 选用 哪 一 个 
学 习 算 法 、 使 用 哪 一 种 参数 配置 呢 ? 这 就 是 机 器 学 习 中 的 “模型 选择 ”(model 
selection) 问题 . 理想 的 解决 方案 当然 是 对 候选 模型 的 泛 化 误差 进行 评估 , 然后 
选择 泛 化 误差 最 小 的 那个 模型 . 然而 如 上 面 所 讨论 的 , 我 们 无 法 直接 获得 泛 化 
RE, 而 训练 误差 又 由 于 过 拟 合 现象 的 存在 而 不 适合 作为 标准 , ABA, 在 现实 中 
如 何 进行 模型 评估 与 选择 呢 ? 


2.2 评估 方法 


is, 我 们 可 通过 实验 测试 来 对 和 尝 习 器 的 泛 化 误差 进行 评估 并 进而 做 出 选 
择 . 为 此 , 需 使 用 一 个 “测试 集 ”(testing set) 来 测试 学 习 器 对 新 样本 的 判别 能 
J, 然后 以 测试 集 上 的 “测试 误差 ”(testing error) 作 为 泛 化 误差 的 近似 . 通常 
我 们 假设 测试 样本 也 是 从 样本 真实 分 布 中 独立 同 分 布 采 样 而 得 . 但 需 注 意 的 
是 , 测试 集 应 该 尽 可 能 与 训练 集 互 斥 , 即 测 试 样 本 尽量 不 在 训练 集中 出 现 、 未 
在 训练 过 程 中 使 用 过 . 

测试 样本 为 什么 要 尽 可 能 不 出 现在 训练 集中 昵 ?” 为 理解 这 一 所 ,不妨 考 虑 
这 样 一 个 场景 : 老师 出 了 10 道 习 题 供 同学 们 练习 , 考试 时 老师 义 用 同样 的 这 10 
道 题 作为 试题 , 这 个 考试 成 绩 能 否 有 效 反 映 出 同学 们 学 得 好 不 好 呢 ? 答案 是 否 
定 的 , 可 能 有 的 同学 只 会 做 这 10 道 题 却 能 得 高 分 . 回 到 我 们 的 问题 上 来 , 我 们 


2.2 ”评估 方法 


参见 习题 2.1. 


同时 可 得 佑 计 结 果 的 标 
EE. 
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希望 得 到 汉化 性 能 强 的 模型 , 好 比 是 希望 同学 们 对 课程 学 得 很 好 、 获 得 了 对 所 
学 知识 “举一反三 ”的 能 力 ; 训练 样本 相当 于 给 同学 们 练习 的 习题 , 测试 过 程 
则 相当 于 考试 . 显然 , 车 测试 样本 被 用 作 训 练 了 , 则 得 到 的 将 是 过 于 “乐观 ”的 
估计 结果 ， 

可 是 , 我 们 只 有 一 个 包含 m 个 样 例 的 数据 集 D = {(x1, y1), (£2, yo), ---, 
(Em: Ym}, 既 要 训练 , 又 要 测试 , 怎样 才能 做 到 呢 ? 答案 是 : 通过 对 DD 进行 适当 
的 处 理 , 从 中 产生 出 训练 集 S 和 测试 集 工 . 下面 介 绍 儿 种 常见 的 做 法 . 

2.2.1 留 出 法 

“ 留 出 法 ”(hold-out) 直 接 将 数据 集 D 划分 为 两 个 互 斥 的 集合 , 其 中 一 个 
集合 作为 训练 集 S, 另 一 个 作为 测试 集 了 , BY D= SUT, SAT =Ø. Æ S Lill 
练 出 模型 后 , 用 工 来 评估 其 测试 误差 , 作为 对 泛 化 误差 的 估计 . 

以 二 分 类 任务 为 例 , 假定 D 包含 1000 个 样本 , 将 其 划分 为 5 包含 700 个 样 
本 , 工 包 含 300 个 样本 , 用 S 进行 训练 后 , W RRE T EA 90 个 样本 分 类 错 
误 , 那么 其 错误 率 为 (90/300) x 100% = 30%, 相应 的 , 精度 为 1 一 30% = 70%. 

需 注 意 的 是 , 训练 /测试 集 的 划分 要 尽 可 能 保持 数据 分 布 的 一 致 性 ,避免 
因数 据 划 分 过 程 引 入 额外 的 偏差 而 对 最 终结 果 产 生 影 响 , 例如 在 分 类 任务 中 
至 少 要 保持 样本 的 类 别 比例 相似 .如果 从 采样 (sampling) 的 角度 来 看 待 数据 
集 的 划分 过 程 , 则 保留 类 别 比 例 的 采样 方式 通常 称 为 “分 层 采样 ”(stratified 
sampling). 例如 通过 对 D 进行 分 层 采 样 而 获得 含 70% 样本 的 训练 集 9 FI 
30% 样本 的 测试 集 工 , 4 DD 包含 500 个 正 例 、500 个 反例 , 则 分 层 采 样 得 到 的 
S 应 包含 350 个 正 例 、350 个 反例 , m TWEE 150 个 正 例 和 150 个 反例 ; 车 
S、 荆 中 样本 类 别 比例 差别 很 大 , 则 误差 估计 将 由 于 训练 /测试 数据 分 布 的 差异 
而 产生 偏差 . 

另 一 个 需 注意 的 问题 是 , 即便 在 给 定 训 练 / 测 试 集 的 样本 比例 后 , 仍 存在 多 
种 划分 方式 对 初始 数据 集 D 进行 分 割 . 例如 在 上 面 的 例子 中 , 可 以 把 DD 中 的 样 
本 排序 , 然后 把 前 350 个 正 例 放 到 训练 集中 , 也 可 以 把 最 后 350 个 正 例 放 到 训 
练 集 中 , …… 这 些 不 同 的 划分 将 导致 不 同 的 训练 /测试 集 , 相应 的 , 模型 评估 的 
结果 也 会 有 差别 . 因此 , 单 次 使 用 留 出 法 得 到 的 估计 结果 往往 不 够 稳定 可 靠 , 在 
使 用 留 出 法 时 , 一 般 要 采用 若干 次 随机 划分 、 重 复 进 行 实 验 评 估 后 取 平 均值 作 
为 留 出 法 的 评估 结果 . 例如 进行 100 次 随机 划分 , 每 次 产生 一 个 训练 /测试 集 用 
于 实验 评估 , 100 次 后 就 得 到 100 个 结果 , 而 留 出 法 返回 的 则 是 这 100 个 结果 的 
ee 

此 外 , 我 们 希望 评估 的 是 用 DD 训练 出 的 模型 的 性 能 , 但 留 出 法 需 划 分 训 
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可 从 “偏差 -方差 ”( 参 
见 2.5 节 ) 的 角度 来 理解 : 
测试 集 小 时 , 评估 结果 的 
方差 较 大 ; 训练 集 小 时 , 评 
IEE RAIRE RK. 


一 般 而 言 , 测试 集 至 少 
应 售 30 个 样 例 [Mitchell, 
1997]. 


亦 称 “大 们 交叉 验证 ” . 


“10 次 10 ZEAE 
证 法 ”与 “100 次 留 出 
法 ”都 是 讲 行 了 100 次 训 
tA /测试 . 
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练 /测试 集 , 这 就 会 导致 一 个 窘境 : 若 令 训练 集 5 包含 绝 大 多 数 样 本 , 则 训练 出 
的 模型 可 能 更 接近 于 用 D 训练 出 的 模型 , 但 由 于 了 比较 小 , 评估 结果 可 能 不 够 
稳定 准确 ; 奉令 测试 集 了 多 包 全 一些 样 本 , 则 训练 集 S 与 D 差别 更 大 了 , 被 评 
佑 的 模型 与 用 D 训练 出 的 模型 相 比 可 能 有 较 大 差别 , 从 而 降低 了 评估 结果 的 保 
真性 (fdqelity). 这 个 问题 没有 完美 的 解决 方案 , 弟 见 做 法 是 将 大 约 2/3 ~ 4/5 的 
桩 本 用 于 训练 , 剩余 样本 用 于 测试 . 


2.2.2 让 叉 验 证 法 

“让 又 验证 法 ”(cross validation) 先 将 数据 集 D 划分 为 kk 个 大 小 相似 的 
BARTS, 即 D = Di UDU... U Dk, DiN D; =Ø (i £i). FATE D; 都 
尽 可 能 保持 数据 分 布 的 一 致 性 , 即 从 万 中 通过 分 层 采样 得 到 . 然后 , 每 次 用 
k 一 1 个子 集 的 并 集 作 为 训练 集 , 余下 的 那个 子 集 作为 测试 集 ; 这 样 就 可 获得 大 
组 训练 /测试 集 , 从 而 可 进行 有 次 训练 和 测试 , 最 终 返 回 的 是 这 天 个 测试 结果 
的 均值 . 显然 , 交叉 验证 法 评估 结果 的 稳定 性 和 保 真 性 在 很 大 程度 上 取 次 于 天 
的 取 值 , 为 强调 这 一 点 , 通常 把 交叉 验证 法 称 为 “上 折 交 又 验证 ”(k-fold cross 
validation). 最 常用 的 取 值 是 10, 此 时 称 为 10 折 交 叉 验 证 ; 其 他 常用 的 卡 值 
有 5、20 等 . 图 2.2 给 出 了 10 折 交 叉 验 证 的 示意 图 . 


二 

AAAA 
Dll 2 测试 集 

一 > 各 议 结 果 1 

一 > 测试 结果 2 |P 返回 


a 结果 


— Ne 
2.2 10 折 交 又 验证 示意 图 


与 留 出 法 相似 , 将 数据 集 D 划分 为 个 子 集 同样 存在 多 种 划分 方式 ， 为 

减 小 因 样 本 划分 不 同 而 引入 的 甘 别 ,有 折 交 又 验证 通常 要 随机 使 用 不 同 的 划分 

重复 pik, 最 终 的 评估 结果 是 这 p 人 次 不 折 交 叉 验 证 结果 的 均值 , 例如 常见 的 有 
“10 K 10 折 交 叉 验证 ”. 

假定 数据 集 D 中 包含 m PEA, ES k =m, WIET ERER 

个 特例 : 留 一 法 (Leave-One-Out, 简称 LOO). 显然 , 留 一 法 不 受 随 机 样本 划分 


2.2 评估 方法 


参见 习题 2.2. 


NFL 定理 参见 1.4 节 ， 


关于 样本 复杂 度 与 泛 化 
性 能 之 间 的 关系 , 参见 第 
12 =, 


Bootstrap h % Æ “HPH 


带 ”; 这 里 是 在 使 用 德国 
18 世纪 文学 作品 《吹牛 
大 王 历 险 记 》 中 解 靳 带 自 
助 的 典故 , 因此 本 书 译 为 
“自助 法 ”. 自助 采样 亦 
称 “ 可 重复 采样 ”或 “有 
PLE] RAR” 


e 是 自然 常数. 


“\” 表 示 集 合 减法 . 


集成 学 习 参 见 第 8 章 . 
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方式 的 影响 , 因为 m 个 桩 本 只 有 唯一 的 方式 划分 为 到 个 子 集 一 每 个 子 集 包含 
一 个 样本 ; 留 一 法 使 用 的 训练 集 与 初始 数据 集 相 比 只 少 了 一 个 样本 , 这 就 使 得 
在 绝 大 多 数 情况 下 , 留 一 法 中 被 实际 评估 的 模型 与 期 望 评估 的 用 D 训练 出 的 模 
型 很 相似 因此 , 留 一 法 的 评估 结果 往往 被 认为 比较 准确 . 然而, 留 一 法 也 有 其 
缺陷 : 在 数据 集 比 较 大 时 , 训练 m 个 模型 的 计算 开销 可 能 是 难以 忍受 的 (例如 数 
据 集 包含 1 白 万 个 样本 , 则 需 训 练 ANNER), 而 这 还 是 在 未 考虑 算法 调 参 
的 情况 下 . 另外 , 留 一 法 的 估计 结果 也 未 必 永 远 比 其 他 评估 方法 准确 ; “没有 仿 
费 的 午餐 ”定理 对 实验 评估 方法 同样 适用 . 
2.2.3 自助 法 

我 们 希望 评 信 的 是 用 D 训练 出 的 模型 . 但 在 留 出 法 和 交叉 验 证 法 中 , 由 于 
保留 了 一 部 分 样本 用 于 测试 , 因此 实际 评估 的 模型 所 使 用 的 训练 集 比 D 小 , 这 
必然 会 引入 一 些 因 训练 样本 规模 不 同 而 导致 的 估计 偏 牵 . 留 一 法 受训 练 样本 规 
模 变 化 的 影响 较 小 , 但 计算 复杂 度 义 太 高 了 . 有 没有 什么 办 法 可 以 减少 训练 样 
本 规模 不 同 造 成 的 影响 , 同时 还 能 比较 高 效 地 进行 实验 估计 呢 ? 

“ 目 助 法 ”(bootstrapping) 是 一 个 比较 好 的 解决 方案 , CARA HARKE 
法 (bootstrap sampling) 为 基础 [Efron and Tibshirani, 1993]. 给 定 包 含 m 个 样 
本 的 数据 集 D , 我们 对 它 进 行 采样 产生 数据 集 D: 每 次 随机 从 万 中 挑选 一 个 
样本 , 将 其 拷贝 放 入 D! , 然后 再 将 该 样本 放 回 初始 数据 集 D P, 使 得 该 样本 在 
下 次 采样 时 仍 有 可 能 被 采 到 ; 这 个 过 程 重 复 执行 mm 次 后 , 我 们 就 得 到 了 包含 m 
个 样本 的 数据 集 D', Wie ADREF. 显然 , D 中 有 一 部 分 样本 会 在 D! 
中 多 次 出 现 , 而 男 一 部 分 样本 不 出 现 . 可 以 做 一 个 简单 的 估计 , 样本 在 m 次 采 
样 中 始终 不 被 采 到 的 概率 是 (1 一 去) ， 取 极限 得 到 


1\™ 1 
lim {1—— = — æ 0.368 , (2.1) 
Mm oo YTL e 


即 通过 自助 采样 , 初始 数据 集 D 中 约 有 36.8% 的 样本 未 出 现在 采样 数据 集 D 
中 . 于 是 我 们 可 将 D' 用 作 训练 集 , D\ D 用 作 测 试 集 ; 这 样 , 实际 评估 的 模型 与 
期 望 评估 的 模型 都 使 用 m 个 训练 样本 , 而 我 们 仍 有 数据 总 量 约 1/3 的 、 没 在 训 
练 集中 出 现 的 样本 用 于 测试 . 这 样 的 测试 结果 , 亦 称 “ 包 外 估计 ”(out-ofbag 
estimate). 

目 助 法 在 数据 集 较 小 、 难 以 有 效 划 分 训练 /测试 集 时 很 有 用 ; 此 外 , 目 助 法 
能 从 初始 数据 集中 产生 多 个 不 同 的 训练 集 , 这 对 集成 学 习 等 方法 有 很 大 的 好 处 . 
然而 , 目 助 法 产生 的 数据 集 改变 了 初始 数据 集 的 分 布 , 这 会 引入 估计 偏差 . Al 
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机 器 学 习 常 涉及 两 类 
SM: 一 类 是 算法 的 套数 ， 
亦 AR" AE ARAL" 数目 常 在 
10 以 内 ; AKA ty 
参数 ， RADARS, t) 
如 大 型 “深度 学 习 ” 模型 
甚至 有 上 百人 忆 个 套数 .两 
AIBA AAW, 均 是 产 
生 多 个 模型 之 后 基于 某 种 
评估 方法 来 进行 选择 ; 不 
同 之 处 在 于 前 者 通常 是 由 
人 工 设 定 多 个 套数 候选 值 
后 产生 模型 ， 后 者 则 是 通 
过 学 习 来 产生 多 个 候选 横 
型 (例如 神经 网 络 在 不 同 
轮 数 停止 训练 ). 
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IE, 在 初始 数据 量 足 够 时 , 留 出 法 和 交叉 验证 法 更 常用 一 些 . 
2.2.4 调 参 与 最 终 模 型 


大 多 数学 习 算 法 都 有 些 参数 (parameter) 需 要 设 定 , 参数 配置 不 同 , 学 得 模 
型 的 性 能 往往 有 显著 差别 . 因此 , 在 进行 模型 评估 与 选择 时 , 除了 要 对 适用 学 习 
算法 进行 选择 , 还 需 对 算法 参数 进行 设 定 , 这 了 网 是 通 音 所 说 的 “参数 调节 ”或 
WER “S” (parameter tuning). 

读者 可 能 马上 想到 , 调 参 和 算法 选择 没什么 本 质 区 别 : 对 每 种 参数 配置 都 
训练 出 模型 , 然后 把 对 应 最 好 模型 的 参数 作为 结果 . 这 样 的 考虑 基本 是 正确 的 ， 
{AA AE: 学 习 算 法 的 很 多 参数 是 在 实数 范围 内 取 值 , 因此 , 对 每 种 参数 
配置 都 训练 出 模型 来 是 不 可 行 的 . 现实 中 常用 的 做 法 , 是 对 每 个 参数 选 定 一 个 
范围 和 变化 步 长 , 例如 在 [0,0.2] 范围 内 以 0.05 为 步 长 , 则 实际 要 评估 的 候选 参 
数值 有 5 个 , 最终 是 从 这 5 个 候选 值 中 产生 选 定 值 . 显然 , 这 样 选 定 的 参数 值 往 
往 不 是 “最 佳 ” 值 , 但 这 是 在 计算 开销 和 性 能 估计 之 间 进 行 折 中 的 结果 , 通过 
这 个 折 中 , 学 习 过 程 才 变 得 可 行 . 事实 上 , 即便 在 进行 这 样 的 折 中 后 , 调 参 往往 
仍 很 困难 . 可 以 简单 估算 一 下 : 假定 算法 有 3 个 参数 , 每 个 参数 仅 考 虑 5 个 候选 
E, 这 样 对 每 一 组 训练 /测试 集 就 有 5° = 125 个 模型 需 考 察 ; 很 多 强大 的 学 习 算 
法 有 不 少 参数 需 设 定 , 这 将 导致 极 大 的 调 参 工程 量 , 以 至 于 在 不 少 应 用 任务 中 ， 
参数 调 得 好 不 好 往往 对 最 终 模型 性 能 有 关键 性 影 啊 . 

给 定 包含 m 个 样本 的 数据 集 DD, 在 模型 评估 与 选择 过 程 中 由 于 需要 留 出 
一 部 分 数据 进行 评估 测试 , 事实 上 我 们 只 使 用 了 一 部 分 数据 训练 模型 . 因此 , 在 
模型 选择 完成 后 , 学 习 算 法 和 参数 配置 已 选 定 , 此 时 应 该 用 数据 集 万 重新 训练 
模型 . 这 个 模型 在 训练 过 程 中 使 用 了 所 有 m 个 样本 , 这 才 是 我 们 最 终 提 交 给 用 
户 的 模型 . 

Fah, 需 注 意 的 是 , 我 们 通常 把 学 得 模型 在 实际 使 用 中 过 到 的 数据 称 为 测 
试 数据 , 为 了 加 以 区 分 , 模型 评估 与 选择 中 用 于 评估 测试 的 数据 集 单 称 为 “了 验 
证 集 ”(validation set). 例如 , 在 研究 对 比 不 同 算法 的 汉化 性 能 时 , 我 们 用 测试 
集 上 的 判别 效果 来 估计 模型 在 实际 使 用 时 的 泛 化 能 力 , 而 把 训练 数据 另外 划分 
为 训练 集 和 验证 集 , 基于 验证 集 上 的 性 能 来 进行 模型 选择 和 调 参 . 


2.3 性 能 度量 


对 学 习 器 的 汉化 性 能 进行 评估 , 不 仅 需 要 有 效 可 行 的 实验 估计 方法 , 还 需 
要 有 衡量 模型 泛 化 能 力 的 评价 标准 , 这 就 是 性 能 度量 (performance measure). 


2.3 性 能 度量 


9 章 


聚 类 的 性 能 度量 参见 第 
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性 能 度量 反映 了 任务 需求 , 在 对 比 不 同 模型 的 能 力 时 , 使 用 不 同 的 性 能 度量 往 
往 会 导致 不 同 的 评判 结果 ; 这 意味 着 模型 的 “好 坏 ” 是 相对 的 , 什么 样 的 模型 
是 好 的 , 不 仅 取决 于 算法 和 数据 , 还 决定 于 任务 需求 . 


是 示例 xz; 的 真实 标记 . 要 评估 学 习 器 f 的 性 能 , 就 要 把 学 习 器 预测 结果 f (a) 
与 真实 标记 y 进行 比较 . 


回归 任务 最 常用 的 性 能 度量 是 “ 均 方 误差 ”(mean squared error) 
E(f;D) = Df (2) — i)? - (2.2) 
i=1 


更 一 般 的 , 对 于 数据 分 布 D 和 概率 密度 函数 pO), HIN RÆ HAE A 


E(f;D) = J G (@) - y}? plede . (2.3) 


本 节 下 面 主 要 介绍 分 类 任务 中 常用 的 性 能 度量 . 
2.3.1 错误 率 与 精度 

本 章 开 头 提 到 了 错误 率 和 精度 , 这 是 分 类 任务 中 最 常用 的 两 种 性 能 度量 ， 
既 适 用 于 二 分 类 任务 , 也 适用 于 多 分 类 任务 . 错误 率 是 分 类 错误 的 样本 数 占 样 


本 总 数 的 比例 , 精度 则 是 分 类 正确 的 样本 数 占 样本 总 数 的 比例 . 对 样 例 集 D, 分 


E(f; D) = = DI (wi) #%) . (2.4) 
į=[1 
精度 则 定义 为 
ace(f;D) = = SOIC (æ) = vi) (2.5) 
= ¢ģġ=l] 
= 1-£(f;D). 


更 一 般 的 , 对 于 数据 分 布 D 和 概率 密度 函数 p(.), ARRS K RETT 4 
述 为 : 
B(f;D) = |  I(f (@) Av) p(w)de, (2.6) 
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查 准 率 亦 称 “ 准 确 率 ”， 
查 全 率 亦 称 “ 召 回 率 ”. 
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acc(fiD) = f I(f (æ) = y)plæ)dz (2.7) 
= 1-E(f;D). 


2.3.2 查 准 率 、 查 全 率 与 F1 

错误 率 和 精度 虽 常 用 , 但 并 不 能 满足 所 有 任务 需求 . 以 西瓜 问题 为 例 , 假定 
瓜农 拉 来 一 车 西瓜 , 我 们 用 训练 好 的 模型 对 这 些 西瓜 进行 判别 , 显然 , FRE 
量 了 有 多 少 比例 的 瓜 和 被 羯 别 错 误 . 但 是 者 我 们 关心 的 是 “ 挑 出 的 西瓜 中 有 多 少 
比例 是 好 瓜 ”, 或 者 “所 有 好 瓜 中 有 多 少 比例 被 挑 了 出 来 ”, 那么 错误 率 显 然 
BILAN WS HAS, 这 时 需要 使 用 其 他 的 性 能 度量 . 

类 似 的 需求 在 信息 检索 、Web 搜索 等 应 用 中 经 常 出 现 , 例如 在 信息 检索 
中 , 我 们 经 常会 关心“ 检索 出 的 信息 中 有 和 多少 比例 是 用 户 感 兴趣 的 ”“ 用 
户 感 兴趣 的 信息 中 有 多 少 被 检索 出 来 了 ”. “ 查 准 率 ”(precision) 与 “ 查 全 
率 ”(recall) 是 更 为 适用 于 此 类 需求 的 性 能 度量 . 

对 于 二 分 类 问题 , 可 将 桩 例 根据 其 真实 类 别 与 学习 带 预 测 类 别 的 组 合 划 
分 为 真正 例 (true positive)、 假 正 例 (false positive)、 真 反例 (true negative). 
假 反 例 (false negative) 四 种 情形 , + TP. FP. TN. FN 分 别 表 示 其 对 应 的 
样 例 数 , 则 显然 有 7TP+FP+TN+RFN = 样 例 总 数 . 分 类 结果 的 “混淆 矩 
Me” (confusion matrix) 如 表 2.1 所 示 . 


表 2.1 分 类 结果 混 消 矩阵 


TARER 


TP (真正 例 ) 


FP ( 假 正 例 ) 


真实 情况 


FN ( 假 反 例 ) 
TN ( 真 反例 ) 


BER P SAREZ RIIE 


LP 

A TP+FP ’ (2.8) 
iP 

R= PFN | (ee) 


FY HE 8 AA BEY Ee. 一 般 来 说 , 查 准 率 高 时 , 查 全 率 往 往 
Witt; MERKEN, AERE IR. 例如 , 大 希望 将 好 瓜 尽 可 能 多 地 选 出 来 ， 
则 可 通过 增加 选 瓜 的 数量 来 实现 , 如 果 将 所 有 西瓜 都 选 上 , 那么 所 有 的 好 瓜 也 


2.3 ”性 能 度量 


以 信息 检索 应 用 为 倒 ， 
逐条 向 用 户 反 馈 其 可 能 感 
兴趣 的 信息 , 即 可 计算 出 
TAF, pR, 


亦 称 “PR 曲线 ”或 
“PR 图 ” , 


为 绘图 方便 和 美观 , 示 
意图 显示 出 单调 平滑 曲线 : 
但 现实 任务 中 的 P-R 曲线 
党 是非 音调、 不 平滑 的 ， 
在 很 多 局 部 有 上 下 波动 . 
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必然 都 被 选 上 了 , 但 这 样 查 准 率 就 会 较 低 ; 大 希望 选 出 的 瓜 中 好 瓜 比 例 尽 可 能 
fey, 则 可 只 挑选 最 有 把 握 的 瓜 , 但 这 样 就 难免 会 漏 抒 不 少 好 瓜 , 使 得 得 全 率 较 
低 . 通常 只 有 在 一 些 简单 任务 中 , 才 可 能 使 查 全 率 和 查 准 率 都 很 高 . 

在 很 多 情形 下 , 我 们 可 根据 学 习 器 的 预测 结果 对 样 例 进行 排序 , 排 在 前 面 
的 是 学 习 器 认为 “最 可 能 ”是 正 例 的 样本 , 排 在 最 后 的 则 是 学 习 器 认为 “最 
不 可 能 ”是 正 例 的 样本 . 按 此 顺序 逐个 把 样本 作为 正 例 进行 预测 , 则 每 次 可 以 
计算 出 当前 的 查 全 率 、 查 准 率 . 以 查 准 率 为 纵 轴 、 查 全 率 为 横 轴 作 图 , 就 得 到 
了 查 准 率 - 查 全 率 曲 线 , 简称 “P-R 曲 线 ”, 显示 该 曲线 的 图 称 为 “P-R 图 ”. 图 
2.3 给 出 了 一 个 示意 图 . 


0.2 


0.6 
FAR 
图 2.3 了 -BR 曲线 与 平衡 点 示意 图 


P-R 图 直观 地 显示 出 学 习 器 在 样本 总 体 上 的 查 全 率 、 查 准 率 . 在 进行 比较 
时 , 若 一 个 学 习 器 的 P-R. 曲线 被 另 一 个 学 习 器 的 曲线 完全 “ 包 住 ”, 则 可 上 断言 
后 者 的 性 能 优 于 前 者 , 例如 图 2.3 中 学 习 器 A 的 性 能 优 于 学 习 器 C ; 如 果 两 个 
“2 451 P-R 曲线 发 生 了 交叉 , 例如 图 2.3 中 的 A 与 B , 则 难以 一 般 性 地 断言 
PA BURA, 只 能 在 具体 的 查 准 率 或 查 全 率 条 件 下 进行 比较 . 然而 , 在 很 多 情 
ÉF, 人 们 往往 仍 希 望 把 学 习 器 A 与 B 比 出 个 高 低 . 这 时 一 个 比较 合理 的 判 据 
是 比较 P-R 曲线 下 面积 的 大 小 , 它 在 一 定 程度 上 表征 了 学 习 髓 在 查 准 率 和 碍 全 
率 上 取得 相对 “ 双 高 ”的 比例 . 但 这 个 值 不 太 容 易 估算 , 因此 , 人 们 设计 了 一 些 
综合 考虑 查 准 率 、 查 全 率 的 性 能 度量 . 
“平衡 点 ”(Break-Even Point, 简称 BEP) 就 是 这 样 一 个 度量 , 它 是 “ 查 准 
率 王 得 全 率 ” 时 的 取 值 , 例如 图 2.3 中 学 习 器 C 的 BEP Æ 0.64, 而 基于 BEP 的 
比较 , 可 认为 学 习 器 A TFB. 
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FIiAKRTERS SE 
4 & 6°) Wel Ae -F 22] (harmonic 
mean) € X $: 


1 1 1 1 
Fl 2 P RJ 


Fa 则 是 加 权 调和 平均 : 


1 1 1 & 
Fa 1+? FP R l 


5 ERP EE ) 和 几 
何平 均 ( VBP x Re, WA 
和 平均 更 重视 较 小 值 . 
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但 BEP 还 是 过 于 简化 了 些 , 更 常用 的 是 Fl1 度量 : 


2x 7P 


2x PxKR 
FER + TP TN ` 


=e (2.10) 

在 一 些 应 用 中 , 对 查 准 率 和 查 全 率 的 重视 程度 有 所 不 同 . 例如 在 商品 推荐 
系统 中 , 为 了 尽 可 能 少 打 扰 用 户 , 更 希望 推 存 内 容 确 是 用 户 感 兴趣 的 , 此 时 得 准 
这 更 重要 ; 而 在 逃犯 信息 检索 系统 中 , ERER feb, IN Ae 
重要 . Fl 度量 的 一 般 形 式 一 fa, 能 让 我 们 表达 出 对 查 准 率 / 查 全 率 的 不 同 偏 
好 , 它 定 义 为 


(1+ 67)x PxR 
(B2xP)+R ’ 

其 中 8 > 0 度量 了 查 全 率 对 查 准 率 的 相对 重要 性 [Van Rijsbergen, 1979]. 8 = 1 

时 退化 为 标准 的 F1; 6 > 1 时 查 全 率 有 更 大 影响 ; 8 < 1 时 查 准 率 有 更 大 影响 . 


很 多 时 候 我 们 有 多 个 二 分 类 混 请 和 窍 阵 , 例如 进行 多 次 训练 /测试 , 每 次 得 到 
一 个 泥 清 窍 阵 ; 或 是 在 多 个 数据 集 上 进行 训练 /测试 , 布 望 估 计算 法 的 “全 局 ” 
性 能 ; 其 或 是 执行 多 分 类 任务 , 每 两 两 类 别 的 组 合 都 对 应 一 个 混淆 矩阵 ; …… 
总 之 ,我们 希望 在 对 个 二 分 类 混 请 和 矩阵 上 绿 合 考察 得 准 率 和 得 全 率 . 

一 种 直接 的 做 法 是 先 在 各 混 铺 窍 阵 上 分 别 计 算出 得 准 率 和 得 全 率 ， 
WA (Pi, Ri), (Po, Re),...,(Pr, Rn), HIA OVS, RPT Bl “ A AE 
#8” (macro-P). “REEE” (macro-R), 以 及 相应 的 “ 宏 F1” (macro-F'1): 


Fs = (2.11) 


i 四 
macro-P = = > F; (2.12) 
1 TL 
macro-R = — X Ri À (2.13) 
Me al 
2 P x m - Ea 
macro- F] = 2X macro-P x macro R (2.14) 


macro-P + macro-R 


KE FY SIG RG VER Pa AEE YY DY 0 8 ETT VSS, FEE TP. FP. TN. FN 的 
平均 值 , PHA TP. PP. TN, FN, 再 基于 这 些 平均 值 计 算出 “ 微 查 准 
4” (micro-P). “Afr” (micro-R)F#l “GAF1” (micro-F1): 


T 


一 一 (2.15) 
TP + FP 


micro-P = 


2.3 性 能 度量 


神经 网 络 参 见 第 5 章 . 
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TP 


micro- FR = $$ ———— 
TP+ FN 


(2.16) 


2 x micro-P x mi R | 
micro-F'l = ade 2 . (2.17) 
micro-P + micro-R 


2.3.3 ROC 与 AUC 


很 多 学 习 器 是 为 测试 样本 产生 一 个 实 值 或 概率 预测 , 然后 将 这 个 预测 值 与 
一 个 分 类 阔 值 (threshold) 进 行 比较 , 若 大 于 阅 值 则 分 为 正 类 , 否则 为 反 类 . 例 
如 , 神经 网 络 在 一 般 情形 下 是 对 每 个 测试 样本 预测 出 一 个 [0.0,1.0] 之 间 的 实 值 ， 
然后 将 这 个 值 与 0.5 进行 比较 , 大 于 0.5 则 判 为 正 例 , 否则 为 反例 . 这 个 实 值 或 
概率 预测 结果 的 好 坏 , 直接 决定 了 学 习 器 的 泛 化 能 力 . 实际 上 , 根据 这 个 实 值 或 
概率 预测 结果 , 我 们 可 将 测试 样本 进行 排序 ,“ 最 可 能 ”是 正 例 的 排 在 最 前 面 ， 
“最 不 可 能 ”是 正 例 的 排 在 最 后 面 . 这 样 , 分 类 过 程 就 相当 于 在 这 个 排序 中 以 
FT “ARTA” (cut point) 将 样本 分 为 两 部 分 , 前 一 部 分 判 作 正 例 , 后 一 部 分 则 
判 作 反 例 . 


在 不 同 的 应 用 任务 中 , 我 们 可 根据 任务 需求 来 邓 用 不 同 的 惟 断 后, 例如 大 
我 们 更 重视 “ 查 准 率 ”, 则 可 选择 排序 中 人 徘 前 的 位 置 进 行 截断 ; 若 更 重视 “ 查 
全 率 ”, 则 可 选择 靠 后 的 位 置 进行 截断 . 因此 , 排序 本 身 的 质量 好 坏 , 体现 了 综 
合 考 虑 学 习 器 在 不 同 任务 下 的 “期 望 泛 化 性 能 ”的 好 坏 , 或 者 说 , “一 般 情况 
下 ” 泛 化 性 能 的 好 坏 . ROC 曲线 则 是 从 这 个 角度 出 发 来 研究 学 习 器 汉化 性 能 
的 有 力 工具 . 

ROC 全 称 是 “ 受 试 者 工作 特征 ”(Receiver Operating Characteristic) H 
线 , 它 源 于 “二 战 ” 中 用 于 敌 机 检测 的 雷达 信号 分 析 技 术 , 二 十 世纪 六 七 十 
年 代 开 始 被 用 于 一 些 心理 学 、 医 学 检测 应 用 中 , 此 后 被 引入 机 器 学 习 领 域 
[Spackman, 1989]. 与 2.3.2 节 中 介绍 的 P-R 曲线 相似 , 我 们 根据 学 习 嚣 的 预 
m AG ART FF Bi SEAT AE A, 控 此 顺 厅 逐个 把 样本 作为 正 例 进行 预测 , 每 次 计算 
出 两 个 重要 量 的 值 , 分 别 以 它们 为 模 、 纵 坐标 作 图 , 就 得 到 了 “ROC 曲线 ”. 
与 P-R 曲线 使 用 查 准 率 、 查 全 率 为 纵 、 横 轴 不 同 , ROC 曲线 的 纵 轴 是 “真正 
例 率 ”(True Positive Rate, 简称 TPR), 模 轴 是 “ 假 正 例 率 ”(False Positive 
Rate, JER FPR), 基于 表 2.1 PIAS, 两 者 分 别 定义 为 

TP 


TPR = TP LEN ’ 


(2.18) 


FP 
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基于 有 限 个 测试 样 例 绘 
制 P-R 图 时 有 同样 问题 . 
本 书 到 这 里 才 介 绍 近 似 曲 
线 的 绘制 , 是 为 了 便于 下 
面 介绍 AUC 的 计算 . 
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显示 ROC HANA KA “ROC A”. 图 2.4(a) 给 出 了 一 个 示意 图 , 显然 ， 
对 角 线 对 应 于 “随机 猜测 ”模型 , 而 点 (0, 1) 则 对 应 于 将 所 有 正 例 排 在 所 有 反 
例 之 前 的 “理想 模型 ”. 


0 D2 0.4 0G 0.8 1.0 0.2 0.4 0.6 0.8 1.0 
BEŽ 假 正 例 率 
(a) ROC 曲线 与 AUC (b) 基于 有 wues a) ROC 曲线 
与 AUC 


图 2.4 ROC HAS AUC 示意 图 


现实 任务 中 通常 是 利用 有 限 个 测试 样 例 来 绘制 ROC K, 此 时 仅 能 获得 有 
限 个 (真正 例 率 , 假 正 例 率 ) 坐 标 对 , 无 法 产生 图 2.4(a) 中 的 光滑 ROC 曲线 , 只 能 
绘制 出 如 图 2.4(b) 所 示 的 近似 ROC 曲线 . 绘图 过 程 很 简单 : 给 定 mt 个 正 例 和 
m 个 反例 , 根据 学 习 器 预测 结果 对 样 例 进行 排序 , 然后 把 分 类 阔 值 设 为 最 大 ， 
即 把 所 有 样 例 均 预 测 为 反例 , 此 时 真正 例 率 和 假 正 例 率 均 为 0, 在 坐标 (0,0) 处 
标记 一 个 点 . 然后 , KEP RAK A BES EB BS FL, 即 依次 将 每 个 样 例 
划分 为 正 例 . 设 前 一 个 标记 点 坐标 为 (2, y), 当前 若 为 真正 例 , 则 对 应 标记 点 的 
坐标 为 (a,y+ 4-); SRA ABE, 则 对 应 标记 点 的 坐标 为 (z + +, y), 然 
后 用 线段 连接 相 邻 点 即 得 . 

进行 学 习 器 的 比较 时 , 与 P-R 图 相似 , 车 一 个 学 习 器 的 ROC 曲线 被 另 一 
个 学 习 器 的 曲线 完全 “ 包 住 ”, 则 可 断言 后 者 的 性 能 优 于 前 者 ; PS A 
的 ROC 曲线 发 生 交 叉 , 则 难以 一 般 性 地 断言 两 者 就 优 训 劣 . 此 时 如 果 一 定 要 进 
ITER, 则 较为 合理 的 判 据 是 比较 ROC 曲线 下 的 面积 , 即 AUC (Area Under 
ROC Curve), 如 图 2.4 所 示 . 

从 定义 可 知 AUC 可 通过 对 ROC 曲线 下 各 部 分 的 面积 求 和 而 得 . E 
E ROC 曲线 是 由 坐标 为 {(£1, Y1), (£2, Y2), ---, (Em, Ym) } 的 点 按 序 连 接 而 形 
成 (zl =0, tm = 1), 参见 图 2.4(b), WJ AUC 可 估算 为 


2.3 性 能 度量 
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m—1 
1 
AUC = 5 2 (zi+1 — Ti) (Vit Yi+1) ， (2.20) 


形式 化 地 看 , AUC 考虑 的 是 样本 预测 的 排序 质量 , 因此 它 与 排序 误差 有 紧 
密 联系 . 给 定 mt 个 正 例 和 m 个 反例 , 令 D+ 和 D 分 别 表示 正 、 反 例 集合 ， 
则 排序 “损失 ”(loss) 定 义 为 


oui ware. pi (1H < Fæ) + FIE) = F@))) , 

(2.21) 
即 考虑 每 一 对 正 、 反 例 , 若 正 例 的 预测 值 小 于 反例 , 则 记 一 个 “ 罚 分 ”, 若 相 
等 , 则 记 0.5 个 “ 罚 分 ”. 容易 看 出 , byan 对 应 的 是 ROC 曲线 之 上 的 面积 : 车 
一 个 正 例 在 ROC 曲线 上 对 应 标记 点 的 坐标 为 (z, 妇 , W z 恰 是 排序 在 其 之 前 的 
反例 所 占 的 比例 , 即 假 正 例 率 . 因此 有 


AUC = 1 — brank . (2.22) 


2.3.4 代价 敏感 错误 率 与 代价 曲线 

在 现实 任务 中 常会 过 到 这 样 的 情况 : 不 同类 型 的 错误 所 造成 的 后 果 不 同 . 
例如 在 医疗 诊断 中 , 错误 地 把 患者 诊断 为 健康 人 与 错误 地 把 健康 人 诊断 为 患者 ， 
看 起 来 都 是 犯 了 “一 次 错误 ”, 但 后 者 的 影响 是 增加 了 进一步 检查 的 膝 烦 , 前 
者 的 后 果 却 可 能 是 丧失 了 抒 救 生命 的 最 佳 时 机 ; 再 如 , 门禁 系统 错误 地 把 可 通 
行人 员 拦 在 门 外 , 将 使 得 用 户 体 验 不 佳 , 但 错误 地 把 卫生 人 放 进 门 内 , 则 会 造成 
严重 的 安全 事故 . AMG AN AA RATER AIGA, AAT “SE 
均等 代价 ”(unequal cost). 

以 二 分 类 任务 为 例 , 我们 可 根据 任务 的 领域 知识 设 定 一 个 “代价 矩 
阵 ”(cost matrix), 如 表 2.2 Aras, E costi 表示 将 第 类 样本 预测 为 第 j 类 
样本 的 代价 . 一 般 来 说 , costa = 0; FIR 0 类 判别 为 第 1 类 所 造成 的 损失 更 


一 般 情况 下 , 重要 的 是 ”大 , 则 costol > costio; 损失 程度 相差 越 大 , costol 5 costio 值 的 差别 越 大 . 


代价 比值 而 非 绝 对 值 ， 例 
如 costol : costio = 5:1 


与 50 : 10 所 起 效果 相当 . 


表 2.2 二 分 类 代价 矩阵 
FRA KA 


真实 类 别 
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参见 习题 2.7. 


“规范 化 ” (normaliza- 
tion) 是 将 不 同 变 化 范 转 的 
值 映 射 到 相同 的 固定 范围 
中 ,常见 的 是 [0,1], 此 时 亦 
称 “ 归 一 化 ”. 参见 习题 
2.8. 
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回顾 前 面 介 绍 的 一 些 性 能 度量 可 看 出 , 它们 大 都 隐 式 地 假设 了 均等 代价 ， 
例如 式 (2.4) 所 定义 的 错误 率 是 直接 计算 “错误 次 数 ”, 并 没有 考虑 不 同 错误 会 
造成 不 同 的 后 果 . 在 非 均 等 代价 下 , 我 们 所 和 硕 望 的 不 再 是 简单 地 最 小 化 错误 次 
数 , 而 是 希望 最 小 化 “总 体 代 价 ”(total cost). 若 将 表 2.2 中 的 第 0 类 作为 正 
R, B 1 类 作为 反 关 , & Dt 5 D- TARE BIER D 的 正 例子 集 和 反例 于 
R, Wl) “ARGUE” (cost-sensitive) fH Ke A 


,BiEDT+ 


E(f; D; cost) | > I(f (a) # yi) x costol 


+ >. (e A1) x costan (2.23) 


xz,€D— 


关羽 的 , 可 给 出 基于 分 布 定 义 的 代价 敏感 错误 率 , 以 及 其 他 一 些 性 能 度量 
如 精度 的 代价 敏感 版 本 . 27° costij PHI i j 取 值 不 限于 0、1, 则 可 定义 出 多 
分 类 任务 的 代价 敏感 性 能 度量 . 


在 非 均等 代价 下 ROC 曲线 不 能 直接 反映 出 学 习 器 的 期 望 总 体 代 价 ， 而 
“代价 曲线 ”(cost curve) 则 可 达到 该 目的 . 代价 曲线 图 的 横 轴 是 取 值 为 [0, 1] 
的 正 例 概率 代价 


p x costa) 


P(+)cost = 一 一 
(+) p x costol + (1 — p) x costio 


, (2.24) 


HEHE p 是 样 例 为 正 例 的 概率 ; 纵 轴 是 取 值 为 [0,1] 的 归 一 化 代价 


了 FNR x p x costo; + FPR x (1 — p) x costio | (2.25) 

p x costo; + (1 — p) x costio | : 

其 中 FPR 是 式 (2.19) 定 义 的 假 正 例 率 , FNR = 1 一 TPR 是 假 反 例 率 . 代价 曲线 

的 绘制 很 简单 : ROC 曲线 上 每 一 点 对 应 了 代价 平面 上 的 一 条 线段 , 设 ROC H 

线 上 点 的 坐标 为 (FPR,TPR), 则 可 相应 计算 出 FNR, 然后 在 代价 平面 上 绘制 

一 条 从 (0, FPR) 到 (1, FNR) 的 线段 , 线段 下 的 面积 即 表 示 了 该 条 件 下 的 期 望 

总 体 代 价 ; 如 此 将 ROC 曲线 上 的 每 个 点 转化 为 代价 平面 上 的 一 条 线段 ,然后 

取 所 有 线段 的 下 界 , 围 成 的 面积 即 为 在 所 有 条 件 下 学 习 器 的 期 望 总 体 代 价 , 如 
图 2.5 Bras. 


2.4 ”比较 检验 


更 多 关于 假设 检验 的 介 
绍 可 参见 [Wellek, 2010]. 
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1.0 


FNA 


归 一 化 代价 


ith 
FPR D 
EFENI 


图 2.5 代价 曲线 与 期 望 总 体 代价 


1.0 


2.4 比较 检验 


有 了 实验 评估 方法 和 性 能 度量 , 看 起 来 束 能 对 学 习 融 的 性 能 进行 评估 比较 
T: 先 使 用 某 种 实验 评估 方法 测 得 学 习 器 的 某 个 性 能 度量 结果 , 然后 对 这 些 结 
果 进 行 比较 . 但 怎么 来 做 这 个 “比较 ” 呢 ? 是 直接 取得 性 能 度量 的 值 然 后 “ 比 
大 小 ” 吗 ? 实际 上 , 机 器 学 习 中 性 能 比较 这 件 事 要 比 大 家 想象 的 复杂 得 多 . 这 
里 面 涉及 几 个 重要 因素 : 首先 , 我 们 希望 比较 的 是 泛 化 性 能 , 然而 通过 实验 评估 
方法 我 们 获得 的 是 测试 集 上 的 性 能 , 两 者 的 对 比 结果 可 能 未 必 相 同 ; 第 二 , 测试 
集 上 的 性 能 与 测试 集 本 身 的 选择 有 很 大 关系 , 且 不 论 使 用 不 同 大 小 的 测试 集会 
得 到 不 同 的 结果 , 即便 用 相同 大 小 的 测试 集 , 若 包 含 的 测试 样 例 不 同 , 测试 结果 
也 会 有 不 同 ; 第 三 , 很 多 机 器 学 习 算 法 本 身 有 一 定 的 随机 性 , 即便 用 相同 的 参数 
设置 在 同一 个 测试 集 上 多 次 运行 , 其 结果 也 会 有 不 同 . WA, 有 没有 适当 的 方法 
对 学 习 器 的 性 能 进行 比较 呢 ? 

统计 假设 检验 (hypothesis test) 为 我 们 进行 学 习 器 性 能 比较 提供 了 重要 依 
H. 基于 假设 检验 结果 我 们 可 推断 出 , 若 在 测试 集 上 观察 到 学 习 器 A OL OB 好 ， 
则 A 的 弃 化 性 能 是 否 在 统计 意义 上 优 于 B, 以 及 这 个 结论 的 把 握 有 多 大 . 下 面 
我 们 先 介 绍 两 种 最 基本 的 假设 检验 , 然后 介绍 几 种 常用 的 机 器 学 习性 能 比较 方 
法 . 为 便于 讨论 , 本 节 默 认 以 错误 率 为 性 能 度量 , 用 e 表示 . 
2.4.1 假设 检验 

假设 检验 中 的 “假设 ”是 对 学 习 器 泛 化 错误 率 分 布 的 某 种 判断 或 猜想 , 例 
如 “e = eo”. 现实 任务 中 我 们 并 不 知道 学 习 器 的 泛 化 错误 率 , 只 能 获知 其 测试 错 
TRE ê 泛 化 错误 率 与 测试 错误 率 未 必 相 同 , 但 直观 上 , 二 者 接近 的 可 能 性 应 比 
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a A FR tH A 
0.05. 0.1, 2.6 中 a 较 
大 是 为 了 绘图 方便 . 


s.t. Æ “subject to” 的 
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较 大 , 相差 很 远 的 可 能 性 比较 小 . 因此 , 可 根据 测试 错误 率 估 推出 泛 化 错误 率 的 
分 布 . 

泛 化 错误 率 为 e 的 学 习 器 在 一 个 样本 上 犯错 的 概率 是 c; 测试 错误 率 意味 
着 在 m 个 测试 样本 中 恰 有 ex m 个 被 误 分 类 . 假定 测试 样本 是 从 样本 总 体 分 布 
中 独立 采样 而 得 , 那么 泛 化 错误 率 为 e 的 学 习 器 将 其 中 mm/ 个 样本 误 分 类 、 其 
余 样 本 全 都 分 类 正确 的 概率 是 ( 严 )jem'(1 — em-m; 由 此 可 估算 出 其 恰 将 Ex m 
个 样本 误 分 类 的 概率 如 下 式 所 示 , 这 也 表达 了 在 包含 m 个 样本 的 测试 集 上 , 泛 
化 错误 率 为 e 的 学 习 器 被 测 得 测试 错误 率 为 E 的 概率 : 


m 


P (ê; €) = ( yer 3 oe (2.26) 


ÊX m 
给 定 测试 错误 率 , 则 解 OP(é; €)/Oe = 0 可知, P(é;€) 在 e = e 时 最 大 , |e — êl 3 
大 时 P(é;€) 减 小 . 这 符合 二 项 (binomial) 分 布 , 如 图 2.6 Pras, Æ e= 0.3, W 10 
个 样本 中 测 得 3 个 被 误 分 类 的 概率 最 大 . 


0.25 
0.20 
0.15 
Es 
0.10 
ce 
0.05 一 
L 
Ü 2 4 6 & 10 
误 分 类 样本 数 


图 2.6 二 项 分 布 示意 图 (m = 10,€ = 0.3) 


我 们 可 使 用 “二 项 检验 ”(binomial test) 来 对 “e < 0.3”( 即 “ 泛 化 错误 率 是 
FARF 0.3”) 这 样 的 假设 进行 检验 ， 更 一 般 的 , 考虑 假设 “e < eg” , 则 在 
1 一 的 概率 内 所 能 观测 到 的 最 大 针 误 卒 如 下 式 计 算 . 这 里 1 一 a RRS Ae 
“BAAR” (confidence), 直观 地 来 看 , 相应 于 图 2.6 中 非 阴影 部 分 的 范围 . 


m 

€=maxe s.t. > 的 e(l- <a. (2.27) 
, Ea 
t=en x m+ l 


2.4 ”比较 检验 


二 项 检验 的 临界 值 在 民 
语言 中 可 通过 qbinom(1 一 
a,m,eo)it #, Æ Matlab 
中 是 icdf(/Binomial’,1— 
œ, m, E02. 


R 语言 是 面向 统计 计 
算 的 开源 脚本 语言 ， 参见 


www .r-project.org. 
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此 时 若 测 试 错误 率 e 小 于 临界 值 己 则 根据 二 项 检验 可 得 出 结论 : 在 a 的 显著 度 
F, 假设 “e < ceo" 不 能 被 拒绝 , 即 能 以 1 一 a 的 置信 大 认为 , 和 学习 器 的 汉化 错误 
EART ceo; 人 军 则 该 假设 可 被 拒绝 , 即 在 a 的 显 闭 度 下 可 认为 学 习 器 的 泛 化 铬 
误 率 大 于 eo. 
在 很 多 时 候 我 们 并 非 仅 做 一 次 留 出 法 估计 , 而 是 通过 多 次 重复 留 出 法 或 是 
交叉 验证 法 等 进行 多 次 训练 /测试 , 这 样 会 得 到 多 个 测试 错误 率 , 此 时 可 使 用 
“t 检验”(t-test). 假定 我 们 得 到 了 个 测试 错误 率 , €1,€0,...,€,, 则 平均 测试 
错误 率 u 和 方差 o* 为 


k 
1 
/一 无 人， (2.28) 
i=l 
k 
Rai a é; — ps)? . (2.29) 


考虑 到 这 个 测试 错误 率 可 看 作 泛 化 错误 率 eo 的 独立 采样 , 则 变量 
= Vk (pt — €o) 


T 


(2.30) 


服从 自由 度 为 上 一 1 的 + 分布 , 如 图 2.7 Bra. 


图 2.7 分布 示 意图 (k = 10) 


对 假设 “pw = eo” 和 显著 度 o 我 们 可 计算 出 当 测 试 错误 率 均值 为 eo 时 , 在 
1 a 概率 内 能 观测 到 的 最 大 错误 率 , 即 临界 值 . 这 里 考虑 双边 (two-tailed) 候 
BE, 如 图 2.7 所 示 , 两 边 阴 影 部 分 各 有 a/2 的 面积 ; 假定 阴影 部 分 范围 分 别 为 
[—00, t_ay2] 和 [tay2, 00]. 车 平均 错误 率 4 与 e 2H |u — eol 位 于 临界 值 范围 
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临界 值 to /2 在 Rite 
中 可 通过 qt — a/2,k — 
1) 计算 ， Æ Matlab 中 是 
icdf('T’,1 —a/2,k—1). 
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[ava;tajal AL, 则 不 能 拒绝 假设 “1 = eo”, 即 可 认为 泛 化 错误 率 为 eo, 置信 度 为 
l—a; 否则 可 拒绝 该 假设 , 即 在 该 显著 度 下 可 认为 泛 化 错误 率 与 eo 有 显著 不 
lA]. a 常用 取 值 有 0.05 和 0.1. 表 2.3 给 出 了 一 些 常用 临界 值 . 


表 2.3 双边 上 检验 的 常用 临界 值 


k 
2 5 10 20 30 


0.05 12.706 2.776 2.262 2.093 2.045 
0.10 6.314 2.132 1.833 1.729 1.699 


cy 


上 面 介 绍 的 两 种 方法 都 是 对 关于 单个 学 习 器 沁 化 性 能 的 假设 进行 检验 ， 而 
在 现实 任务 中 , 更 多 时 候 我 们 需 对 不 同学 习 占 的 性 能 进行 比较 , 下 面 将 介绍 适 
用 于 此 类 情况 的 假设 检验 方法 . 
2.4.2 交叉 验证 t 检验 

对 两 个 学 习 器 A ALB, 硅 我 们 使 用 点 折 交叉 验证 法 得 到 的 测试 错误 率 分 
别 为 et, ef,...,62 Ml? B,...,6P, 其 中 eh 和 eB 是 在 相同 的 第 i 折 训 练 / 测 
试 集 上 得 到 的 结果 , 则 可 用 天 折 区 叉 验 证 “成 对 上 检验 ”(paired t-tests) 来 进行 
比较 检验 . 这 里 的 基本 思想 是 吞 两 个 学 习 融 的 性 能 相同 , 则 它们 使 用 相同 的 训 
练 /测试 集 得 到 的 测试 错误 率 应 相同 , BI ef = eP. 

具体 来 说 , 对 大 折 交 叉 验 证 产生 的 不 对 测试 错误 率 : 先 对 每 对 结果 求 差 ， 
Ai = ef — eP; 车 两 个 学 习 器 性 能 相同 , 则 差 值 均值 应 为 零 . 因此 , 可 根据 差 值 
Ai, Ao,..., An 来 对 “学 习 器 A 与 B 性 能 相同 ”这 个 假设 做 t 检验 , 计算 出 差 值 
的 均值 u 和 方差 o?, 在 显著 度 a 下 , AAE 


n= ae (2.31) 


小 于 临界 值 如 jz -1, 则 假设 不 能 被 拒绝 , 即 认为 两 个 学 习 器 的 性 能 没有 显著 差 
别 ; 否则 可 认为 两 个 学 习 器 的 性 能 有 显著 差别 , 有 旦 平均 错误 率 较 小 的 那个 学 习 
器 性 能 较 优 . 这 里 typ 是 自由 度 为 kk 一 1 的 t+ 分 布 上 尾部 累积 分 布 为 a/2 
的 临界 值 . 

欲 进 行 有 效 的 假设 检验 , 一 个 重要 前 提 是 测试 错误 率 均 为 泛 化 错误 率 的 独 
并 采样. 然而 , 通常 情况 下 由 于 样本 有 限 , 在 使 用 交叉 验证 等 实验 估计 方法 时 ， 
不 同 轮 次 的 训练 集会 有 一 定 程度 的 重 难 , 这 就 使 得 测试 错误 率 实 际 上 并 不 独立 ， 
会 导致 过 高 估计 假设 成 立 的 概率 . 为 缓解 这 一 问题 , 可 采用 “5 x 2 交叉 验证 ” 


2.4 ”比较 检验 


eol 十 el0 通常 很 小 , 需 
者 虑 连续 性 校正 ,因此 分 
子 中 有 一 1 项 . 


中 文 称 为 “ 卡 方 分 布 ”. 


临界 值 x2 在 民 语 
言 中 可 通过 qchisq(1 一 
ok 一 1) 计 算 , 在 Matlab 中 
Æ icdf('Chisquare’,1 一 
a,k&—1). @EBA kK = 2 
是 进行 比较 的 算法 个 数 . 
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法 [Dietterich, 1998]. 


5 x 2 交叉 验证 是 做 5 次 2 折 交 叉 验证 , 在 每 次 2 折 交 叉 验 证 之 前 随机 将 数 
HEAT AL, 使 得 5 次 交叉 验证 中 的 数据 划分 不 重复 . 对 两 个 学 习 器 A 和 B, 第 i 次 
2 折 交 叉 验证 将 产生 两 对 测试 错误 率 , 我 们 对 它们 分 别 求 差 , 得 到 第 1 折 上 的 差 
值 Al 和 第 2 折 上 的 差 值 A2. 为 缓解 测试 错误 率 的 非 独 立 性 , 我 们 仅 计 算 第 1 
次 2 折 交 又 验证 的 两 个 结果 的 平均 值 u = 0.5(A} + A3), 但 对 每 次 2 折 实 验 的 
结果 都 计算 出 其 方差 of = (al SEPA)” + (A? SPEAR)” . 变量 


Te = (2.32) 


服从 目 由 度 为 5 Itat, 其 双边 检验 的 临界 值 tj2,5 当 a = 0.05 时 为 2.5706， 
a = 0.1 时 为 2.0150. 


2.4.3 McNemar 检验 


对 二 分 类 问题 , 使 用 留 出 法 不 仪 可 估计 出 学 习 器 A 和 B 的 测试 错误 率 , 还 
可 获得 两 学 习 器 分 类 结果 的 差别 , 即 两 者 都 正确 、 都 错误 、 一 个 正人 确 男 一 个 销 
误 的 样本 数 , 如 “ 列 联 表 ”(contingency table) 2.4 Aras. 


表 2.4 两 学 习 器 分 类 差别 列 联 表 


Ay Be ANT A HY Eg ee AE PA SS SS) A ME BE AH E, 则 应 有 eol = e10, 那么 变量 
leo1 一 elo| 应 当 服 从 正 态 分 布 . McNemar 检验 考虑 变量 


_ (eol — e10| — 1)? 
E01 + €10 


服从 自由 度 为 1 的 x? 分 布 , 即 标准 正 态 分 布 变量 的 平方 . 给 定 显著 度 a, A 
上 变量 值 小 于 临界 值 xz 时 , 不 能 拒绝 假设 , 即 认 为 两 学 习 器 的 性 能 没有 显著 差 
别 ; 否则 拒绝 假设 , 即 认 为 两 者 性 能 有 显著 差别 , 且 平 均 错 误 率 较 小 的 那个 学 习 
器 性 能 较 优 . 自由 度 为 1 x? 检验 的 临界 值 当 a = 0.05 时 为 3.8415, a = 0.1 
时 为 2.7055. 


Ty2 (2.33) 
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2.4.4 Friedman 检验 与 Nemenyi 后 续 检 验 


下 又 验证 t 检 验 和 McNemar 检验 部 是 在 一 个 数据 集 上 比较 两 个 算法 的 
PERE, 而 在 很 多 时 候 , 我 们 会 在 一 组 数据 和 集 上 对 多 个 算法 进行 比较 . 当 有 多 个 
算法 参与 比较 时 , 一 种 做 法 是 在 每 个 数据 集 上 分 别 列 出 两 两 比较 的 结果 , 而 在 
两 两 比较 时 可 使 用 前 述 方法 ; 另 一 种 方法 更 为 直接 , 即使 用 基于 算法 排序 的 
Friedman 检验 . 

假定 我 们 用 Dy. Do. D3 和 Di 四 个 数据 集 对 算法 A、B、C 进行 比较 . 
首先 , 使 用 留 出 法 或 交叉 验证 法 得 到 每 个 算法 在 每 个 数据 集 上 的 测试 结果 , 然 
后 在 每 个 数据 集 上 根据 测试 性 能 由 好 到 坏 排 序 , 并 赋予 厅 值 1, 2, ...; 名 算法 的 
测试 性 能 相同 , 则 平分 序 值 . 例如 , 在 Di 和 D; E, A RG, BER, CRA, 
而 在 Do E, A 最 好 、B 与 C 性 能 相同 ，……… , 则 可 列 出 表 2.5, 其 中 最 后 一 行 通 
过 对 每 一 列 的 序 值 求 平均 , 得 到 平均 序 值 . 


表 2.5 算法 比较 序 值 表 


数据 集 算法 A 算法 BB 算法 C 
Dı 1 2 3 
Do 1 2.5 2.5 
D3 1 2 3 
Da 1 2 3 

平均 序 值 1 2.125 2.875 


然后 , 使 用 Friedman 检验 来 判断 这 些 算 法 是 否 性 能 都 相同 . 若 相 同 , WE 
们 的 平均 序 值 应 当 相 同 . 假定 我 们 在 N 个 数据 集 上 比较 大 个 算法 , S r 表示 第 
i 个 算法 的 平均 序 值 , 为 简化 讨论 , 暂 不 考虑 平分 序 值 的 情况 , W r; 的 均值 和 方 
差分 别 为 (kk 十 1)/2 和 (k? 一 1)/12. 变量 


”天 (大 十 了 (> am see) (2.34) 
FE k AIN 都 较 大 时 , 服从 自由 度 为 一 1 的 x? PA. 
EB RBER ROK 然而 ,上述 这 样 的 “原始 Friedman 检验 ”过 于 保守 , 现在 通常 使 用 变量 


倾向 于 认为 无 显著 区 别 . 
一 7 


NR (2.35) 


2.4 ”比较 检验 


F rae 69 16 FUE RE 
言 中 可 通过 gf(1 一 ,kk 一 
1,(k-1)(N-1)) 计算 ,在 
Matlab 中 年 icdf(’F’,1 一 
a,k—1,(k—1)*(N—1)). 


da Æ Tukey JA t) lë 
Jii, Æ RBS PÄ 
过 qtukey(1—a,k, Inf) / 
sqrt (2) i+ #. 
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其 中 7,2 由 式 (2.34) 得 到 . rr 服从 自由 度 为 k 一 1 和 (kK 一 1)(N 一 1) 9 Fot, 
表 2.6 给 出 了 一 些 常用 临界 值 . 


表 2.6 下 检验 的 常用 临界 值 


a@ = 0.05 
数据 集 算法 个 数 ki 
个 数 N 2 3 4 5 6 7 8 9 10 
4 10.128 5.143 3.863 3.259 2.901 2.661 2.488 2.355 2.250 
7.709 4.459 3.490 3.007 2.711 2.508 2.359 2.244 2.153 
8 5.591 3.739 3.072 2.714 2.485 2.324 2.203 2.109 2.032 
10 5.117 3.555 2.960 2.634 2.422 2.272 2.159 2.070 1.998 
15 4600 3.340 2.827 2.537 2.346 2.209 2.104 2.022 1.955 
20 4.381 3.245 2.766 2.492 2.310 2.179 2.079 2.000 1.935 
& = 0.1 
数据 集 算法 个 数 天 
个 数 N 2 3 A 5 6 7 8 9 10 
4 5.538 3.463 2.813 2.480 2.273 2.130 2.023 1.940 1.874 
5 4.545 3.113 2.606 2.333 2.158 2.035 1.943 1.870 1.811 
8 3.589 2.726 2.365 2.157 2.019 1.919 1.843 1.782 1.733 
10 3.360 2.624 2.299 2.108 1.980 1.886 1.814 1.757 1.710 
15 3.102 2.503 2.219 2.048 1.931 1.845 1.779 1.726 1.682 
20 2.990 2.448 2.182 2.020 1.909 1.826 1.762 1.711 1.668 


A “PA FLIA AI PE Be E” ee PE AR TA, M i BH ELIA AY ME BE E Se 7S 
同 . 这 时 需 进行 “后 续 检验 ”(post-hoc test) 来 进一步 区 分 各 算法 .常用 的 有 
Nemenyi 后 续 检 验 . 


Nemenyi 检验 计算 出 平均 序 值 差 别 的 临界 值 域 


[k(k +1) 
da — 6N ; 


K 2.7 A T a = 0.05 Fl 0.1 时 常用 的 go E. PATS ES PS PZ ee h 
了 临界 和 值 域 CD, 则 以 相应 的 置信 和 度 拒 绝 “ 两 个 算法 性 能 相同 ”这 一 假设 . 


表 2.7 Nemenyi 检验 中 第 用 的 qa 值 


CD = (2.36) 


网 ETL k 
2 3 4 5 6 7 8 9 10 
0.05 1.960 2.344 2.569 2.728 2.850 2.949 3.031 3.102 3.164 
0.1 1.645 2.052 2.291 2.459 2.589 2.693 2.780 2.855 2.920 
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以 表 2.5 中 的 数据 为 例 , 先 根据 式 (2.34) 和 (2.35) 计 算出 rr = 24.429, HK 
2.6 可 知 , 它 大 于 a = 0.05 时 的 三 检验 临界 值 5.143, 因此 拒绝 “所 有 算法 性 
能 相同 ”这 个 假设 .然后 使 用 Nemenyi 后 续 检 验 , ÆR 2.7 PHB) k = 3 时 
qo.o5 = 2.344, 根据 式 (2.36) 计 算出 临界 值 域 CD = 1.657, 由 表 2.5 中 的 平均 序 
值 可 知 , 算法 A 与 B 的 差距 , 以 及 算法 B 与 C 的 差距 均 未 超过 临界 值 域 , 而 算 
法 A 与 C 的 差距 超过 临界 值 域 , 因此 检验 结果 认为 算法 A 与 C 的 性 能 显著 不 
同 , 而 算法 A 与 B、 以 及 算法 B 与 C 的 性 能 没有 显著 差别 . 

上 述 检验 比较 可 以 直观 地 用 Friedman 检验 图 显示 . 例如 根据 表 2.5 Ae 
值 结 果 可 绘制 出 图 2.8, 图 中 纵 轴 显示 各 个 算法 , 横 轴 是 平均 序 值 . 对 每 个 算法 ， 
用 一 个 圆 点 显示 其 平均 序 值 , 以 圆 点 为 中 心 的 横 线 7 段 表示 临界 值 域 的 大 小 . 然 
后 就 可 从 图 中 观察 , 大 两 个 算法 的 模 线 段 有 交 咎 , 则 说 明 这 两 个 算法 没有 显 鞋 
差别 , 否则 即 说 明 有 显著 差别 . 从 图 2.8 中 可 容易 地 看 出 , 算法 A 与 B 没 有 显著 
差别 , 因为 它们 的 横 线 段 有 交规 区 域 , 而 算法 A 显著 优 于 算法 C ,因为 它们 的 
横 线 段 没 有 交 蕉 区 域 . 


图 2.8 Friedman 检验 图 


2.5 MASA 

对 学 习 算 法 除了 通过 实验 估计 其 泛 化 性 能 ， 人们 往往 还 希望 了 解 它 “为 什 
么 ”具有 这 样 的 性 能 . “ 侦 兰 - 方 着 分 解 ”(bias-variance decomposition) 是 解 
释 学 习 算法 泛 化 性 能 的 一 种 重要 工具 . 

偏差 - 方 磊 分 解 试图 对 学 习 算法 的 期 望 泛 化 错误 率 进 行 拆 解 . 我 们 知道 , 算 
法 在 不 同 训 练 集 上 学 得 的 结果 很 可 能 不 同 , 即便 这 些 训练 集 是 来 目 同一 个 分 布 . 


AT AE LR PAR AE 对 测试 样本 x, 令 yp 为 = 在 数据 集中 的 标记 , y 为 x 的 真实 标记 , f(a; D) WII 


yp Æ Yy- 


练 集 D 上 学 得 模型 f 在 x 上 的 预测 输出 . 以 回归 任务 为 例 , 和 学习 算法 的 期 望 预 


2.5 ”偏差 与 方差 45 
测 为 
F(a) = Ep[lf (x; D)] ， (2.37) 
使 用 样本 数 相同 的 不 同 训练 集 产生 的 方差 为 
uar(z) = Ep ( f(x;D)—f (x))”| (2.38) 
噪声 为 
e? = Ep |(yp —y)”| . (2.39) 
期 望 输出 与 真实 标记 的 差别 称 为 偏差 (bias), 即 
bias’ (æ) = (f (a) 一 y)’ i (2.40) 
为 便于 讨论 , 假定 噪声 期 望 为 零 , 即 Eplyp — y] = 0. 通过 简单 的 多 项 式 展开 合 
并 , 可 对 算法 的 期 望 泛 化 误差 进行 分 解 : 
E(f; D) = Ep |(f (æ; D) — yp)’| 
= Ep | (f (æ; D) — F (æ) + F (æ) — yp)” | 
= Ep [(f (æ; D) — F(z)) | + Ep | (F (£2) 一 yp) 
Wate Peo + Ep [2 (f (æ; D) — F (@)) (F (æ) — yp)] 
= Ep | (7 (2; D) — F (x))’| + Ep (F (x) = yp) | 
= Ep | (f (æ; D) — F(w))*| + Ep | (F (æ) -y +y — yD) | 
= Ep |(f (æ; D) — f(z) | + Ep [(F(@) —y)] + Ev [w - yo)? | 


qA m2AO, + 2Ep | (F (Œ) — y) (y — yD) | 
th ae AS IQ 40. = — 
= Ep [Cf (x; D) — f (x))”| T (f (æ) — y)” + Ep [wp = y)?| : 
(2.41) 
于 是 ， 
E(f; D) = bias” (a) + var (a) + €° , (2.42) 


也 就 是 说 , HAIR ZEA] A Vind Ze FT ey FR FA. 


Emm FTES WR RSA SC: 偏差 (2.40) 度 量 了 学 习 算 法 的 期 望 预 测 与 
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很 多 学 习 算 法 都 可 控制 
训练 程度 ,例如 决策 树 可 
控制 层 数 ,神经 网 络 可 控 
制 训 ae se, 集成 学 习 方 
法 可 控制 基 学 习 器 个 数 . 
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真实 结果 的 偏离 程度 , 即刻 和 画 了 学 习 算 法 本 和 喘 的 拟 合 能 力 ; 方差 (2.38) 度 量 了 同 
样 大 小 的 训练 集 的 变动 所 导致 的 学 习性 能 的 变化 , 即刻 画 了 数据 扰动 所 造成 的 
影响 ; 噪声 (2.39) 则 表达 了 在 当前 任务 上 任何 学 习 算 法 所 能 达到 的 期 望 泛 化 误 
Ze PF, 即刻 画 了 学 习 问 题 本 喘 的 难度 . Ain AEDT FED A, 汉化 性 能 是 由 
学 习 算法 的 能 力 、 数 据 的 充分 性 以 及 学 习 任 务 本 身 的 难度 所 共同 决定 的 . 给 定 
学 习 任 务 , 为 了 取得 好 的 泛 化 性 能 , We eee), 即 能 够 元 分 拟 合 数据 ,并 
日 使 方差 较 小 , 即使 得 数据 扰动 产生 的 影响 小 . 

一 般 来 说 , tae SOT FEE ATP SE AY, ORR OA id FET Fe A A (bias-variance 
dilemma). 图 2.9 给 出 了 一 个 示意 图 . 给 定 学 习 任 务 , 假定 我 们 能 控制 学 习 算 法 
的 训练 程度 , 则 在 训练 不 足 时 , 学 习 器 的 拟 合 能 力 不 够 强 , 训练 数据 的 扰动 不 足 
以 使 学 习 器 产生 显著 变化 , 此 时 偏差 主导 了 泛 化 错误 率 ; 随 着 训练 程度 的 加 深 ， 
尝 习 器 的 拟 合 能 力 逐 渐 增 强 , 训练 数据 发 生 的 扰动 渐渐 能 被 学 习 器 学 到 , 方差 
逐渐 主导 了 泛 化 错误 率 ; 在 训练 程度 充足 后 , 学 习 器 的 拟 合 能 力 已 非常 强 , 训练 
数据 发 生 的 轻微 扰动 都 会 导致 学 习 器 发 生 显著 变化 , 若 训 练 数据 自身 的 、 非 全 
Jey A EF EA SE AB eB, 则 将 发 生 过 拟 合 . 


Pi 


P| 2 AE 


图 2.9 泛 化 误差 与 偏差 、 方 差 的 关系 示意 图 


2.6 阅读 材料 

自助 采样 法 在 机 器 学 习 中 有 重要 用 途 , [Efron and Tibshirani, 1993] 对 此 
进行 了 详细 的 讨论 . 

ROC 曲线 在 二 十 世纪 八 十 年 代 后 期 被 引入 机 器 学 习 [Spackman, 1989]， 
AUC 则 是 从 九 十 年 代 中 期 起 在 机 器 学 习 领 域 广 为 使 用 [Bradley, 1997], 但 利用 
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ROC 曲线 下 面积 来 评价 模型 期 望 性 能 的 做 法 在 医疗 检测 中 早已 有 之 [Hanley 
and McNeil, 1983]. [Hand and Till, 2001] 将 ROC 曲线 从 二 分 类 任务 推广 到 多 
分 类 任务 . [Fawcett, 2006] 综述 了 ROC 曲线 的 用 途 . 


[Drummond and Holte, 2006] 发 明了 代价 曲线 . 需 说 明 的 是 , 机 器 学 习 过 
程 涉 及 许多 类 型 的 代价 , 除了 误 分 类 代价 , 还 有 测试 代价 、 标 记 人 代价 、 属 性 代 
价 等 , 即便 仅 考 虑 误 分 关 人 代价, 仍 可 进一步 划分 为 基于 类 别 的 误 分 类 代价 以 及 

ge 基于 样本 的 误 分 类 代价 . 代价 敏感 学 习 (cost-sensitive learning) [Elkan, 2001; 
Zhou and Liu, 2006] 专门 研究 非 均 等 代价 下 的 学 习 . 

[Dietterich, 1998] 指出 了 常规 有 折 交 又 验证 法 存在 的 风险 , 并 提出 了 5x2 
交叉 验证 法 . [Demsar, 2006] 讨论 了 对 多 个 算法 进行 比较 检验 的 方法 . 

[Geman et al., 1992] 针对 回归 任务 给 出 了 俩 差 - 方 差 - 协 方差 分 解 (bias- 
variance-covariance decomposition)， 后 来 航 简 称 为 俩 差 - 方 震 分 解 . LK ind Ze 
和 方 甜 确实 反映 了 各 类 学 习 任 务 内 在 的 误 甜 决定 因素 , 但 式 (2.42) 这 样 优 于 的 
形式 仅 在 基于 均 方 误差 的 回归 任务 中 得 以 推导 出 . 对 分 类 任务 , 由 于 0/1 损失 
函数 的 跳 变 性 , 理论 上 推导 出 偏差 -方差 分 解 很 困难 . 已 有 多 种 方法 可 通过 实 
验 对 侦 差 和 方差 进行 估计 [Kong and Dietterich, 1995; Kohavi and Wolpert, 
1996; Breiman, 1996; Friedman, 1997; Domingos, 2000}. 
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习题 


2.1 


2.2 


2.3 


2.4 


2.0 
2.6 
2.0 


2.8 


2.9 


2.10° 


B25 ”模型 评估 与 选择 


数据 集 包 含 1000 个 样本 , 其 中 500 个 正 例 、500 个 反例 , 将 其 划分 为 
EBE 70% FEA VIA AD 30% 样本 的 测试 集 用 于 留 出 法 评估 , 试 估 
算 共 有 多 少 种 划分 方式 . 

数据 集 包 含 100 个 样本 , 其 中 正 、 反 例 各 一 半 , 假定 学 习 算 法 所 产生 
的 模型 是 将 新 样本 预测 为 训练 样本 数 较 多 的 类 别 ( 训 练 样 本 数 相 同时 
进行 随机 猜测 ), 试 给 出 用 10 折 交 叉 验 证 法 和 留 一 法 分 别 对 错误 率 进 
行 评估 所 得 的 结果 . 


车 学 习 器 A 的 F1 值 比 学 习 器 B 高 , 试 析 A 的 BEP 值 是 否 也 比 B 高 . 


试 述 真正 例 率 (TPR)、 假 正 例 率 (FPR) 与 查 准 率 (P)、 查 全 率 (RR) 之 间 


试 证 明 式 (2.22). 
试 述 错误 率 与 ROC 曲线 的 联系 . 
试 证 明 任 意 一 条 ROC 曲线 都 有 一 条 代价 曲线 与 之 对 应 , BOAR. 


Min-max 规范 化 和 z-score 规范 化 是 两 种 常用 的 规范 化 方法 . S x A 
x! 分 别 表 示 变 量 在 规范 化 前 后 的 取 值 , 相应 的 , 令 Emin 和 Emar RIR 
规范 化 前 的 最 小 值 和 最 大 值 , xz, 和 zx 表示 规范 化 后 的 最 小 值 和 
最 大 值 , © Fl og 分 别 表示 规范 化 前 的 均值 和 标准 差 , 则 min-max 规范 
化 、z-score 规范 化 分 别 如 式 (2.43) 和 (2.44) 所 示 . 试 析 二 者 的 优 缺 点 . 


= 十 一 一 一 一 一 d — ql. 243 

r Tmin 7 oe i Ce TFLiTe ) 7 ( ) 
r L— 2X , 

T = 2.44 
d = (2.44) 


试 述 在 Friedman 检验 中 使 用 式 (2.34) 与 (2.35) 的 区 别 . 
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小 故事 : tt 检验、 啤酒 、“ 学 生 ” 与 RR 

1899 F, 由 于 爱尔兰 都 柏林 的 吉 尼 斯 啤酒 厂 热衷 于 聘 

(oem nic ay 用 剑桥 、 牛 津 的 优秀 毕业 生 , 学 化 学 的 牛津 毕业 生 威廉 。 芝 

% #F (William Gosset, 1876—1937) 到 该 厂 就 职 , 希望 将 他 
的 生物 化 学 知识 用 于 啤酒 生产 过 程 . 为 降低 啤酒 质量 监控 
的 成 本 , 戈 瑟 特 发 明了 检验 法 ,1908 年 在 Biometrika 发 
表 . 为 防止 泄漏 商业 机 密 , 戈 瑟 特 发 表 文 章 时 用 了 笔名 “学 生 ”, 于 是 该 方法 被 
PRA “FER t Hae” (Student’s t-test). 

吉 尼 斯 啤酒 厂 是 一 家 很 有 远见 的 企业 , 为 保持 技术 人 员 的 高 水 准 , 该 
厂 像 高 校 一 样 给 予 技术 人 员 “FAR” , 1906—1907 F R ERRAR “R 
tZ” FR- RRA (Karl Pearson, 1857—1936) 教授 在 伦敦 大 学 学 院 
(University College London, 简称 UCL) 的 实验 室 访问 学 习 . 因此 , 很 难说 t 
检验 法 是 戈 瑟 特 在 啤酒 厂 还 是 在 UCL 访 学 期 间 提 出 的 , 但 “学 生 ” SR 
ae EZ E A RA eK UCL 的 统计 学 家 们 发 现 的 , 尤其 因为 皮尔 撑 教 授 恰 是 
Biometrika 的 主编 . 


亦 称 “可 理解 性 ” 
derstandability). 


(un- 
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3.1 基本 形式 


给 定 由 & 个 属性 摘 述 的 示例 æ = (zli 7X2;...;ZXa), HP x; Æ x FER iT 
性 上 的 取 值 , 线性 模型 (linear model) 试 图 竺 得 一 个 通过 属性 的 线性 组 合 来 进行 
预测 的 函数 , BY 


f(x) = 10171 +wertet+...+watatod, (3.1) 


一 般 用 向 量 形式 写成 
f(a) =wta+b, (3.2) 


FCA w = (wi; we;...; wa). w 和 5 学 得 之 后 , 模型 就 得 以 确定 . 

线性 模型 形式 简单 、 易 于 建 模 , 但 却 理 通 着 机 器 学 习 中 一 些 重要 的 基本 思 
AG. 许多 功能 更 为 强大 的 非 线 性 模型 (nonlinear model) 可 在 线性 模型 的 基础 上 
通过 引入 层级 结构 或 高 维 映射 而 得 . 此 外 , 由 于 w 直观 表达 了 各 属性 在 预测 中 
的 重要 性 , 因此 线性 模型 有 很 好 的 可 解释 性 (comprehensibility). 例如 若 在 西瓜 
问题 中 学 得 “fyym (2) = 0.2 - wage +05- ype +03- capes +1” , 则 意味 着 可 
通过 综合 考虑 色泽 、 根 带 和 敲 声 来 判断 瓜 好 不 好 , 其 中 根 带 最 要 紧 , 而 禹 声 比 
色泽 更 重要 . 

本 章 介 绍 几 种 经 典 的 线性 模型 . 我 们 先 从 回归 任务 开始 , 然后 讨论 二 分 类 
和 多 分 类 任务 . 


3.2 线性 回归 


给 定数 据 集 D = {(21,y1), (x2, y2),---,(@m,Ym)}, 其 中 a = (zi; 
Ti2; ... ;Tid), yi E R. “EPI” (linear regression) 试 图 学 得 一 个 线性 模 
型 以 尽 可 能 准确 地 预测 实 值 输出 标记 . 

我 们 先 考虑 一 种 最 简单 的 情形 : 输入 属性 的 数目 只 有 一 个 . 为 便于 讨论 , 此 
时 我 们 忽略 关于 属性 的 下 标 , 即 D = {(2.,y:)}@,, 其 中 zi eR. 对 离散 属性 ， 
若 属 性 值 间 存在 “ 序 ”(order) 关 系 , 可 通过 连续 化 将 其 转化 为 连续 值 , 例如 二 


o4 


HS AF FH AP FS, VE TE BE AK, 
则 会 不 恰当 地 引入 序 关 系 ， 
对 后 续 处 理 如 距离 计算 等 
造成 误导 , 参见 9.3 节 ， 


均 方 误差 亦 称 平方 损失 


(square loss). 


w*,b* ÈT w Fo bijt. 


Bm — RI AIRS, 
不 仅 限 于 线性 回归 ， 


这 里 Etw,b) LAT wf 
b 的 导数 均 为 零 时 , 得 到 w 
Fo b i RRE. 

对 区 间 [a,b] 上 定义 
的 函数 fj， 若 它 对 区 间 
中 任意 两 点 21,22 HA 
7(2 寺 zz) < Lentea, 

则 称 了 为 区 间 [a， 避 上 的 丁 
iy ax. 

U 形 曲 线 的 函数 如 
f(z) 一 22, 通 常 是 西 函 数 . 


对 实数 集 上 的 函数 ， 可 
通过 来 二 阶 导 数 来 判别 : 
若 二 阶 导数 在 区 间 上 非 负 ， 
M) 48 4 be Se. 若 二 阶 导 
数 在 区 间 上 恒 大 于 0, 则 称 
为 严格 廿 通 数 . 
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值 属性 “身高 ”的 取 值 “高 ”“ 矮 ”可 转化 为 {1.0,0.0}, 三 值 属 性 “高 度 ” 
的 取 值 “高 ”“ 中 ”“ 低 ”可 转化 为 {1.0,0.5,0.0}; 大 属性 值 间 不 存在 序 天 
系 , 假定 有 天 个 属性 值 , 则 通常 转化 为 上 维 向 量 , 例如 属性 “ 瓜 类 ”的 取 值 “ 西 
mm” “了 南瓜” “黄瓜 ” 可 转化 为 (0, QO, 1), (0, l, 0), (1, 0,0). 
线性 回归 试图 学 得 
Flzi) = wri + b, 使 得 f(x) ~ yi. (3.3) 
如 何 确定 w Ab WE? 显然 , 关键 在 于 如 何 衡量 f(x) 与 y 之 间 的 差别 . 2.3 节 
介绍 过 , 均 方 误差 (2.2) 是 回归 任务 中 最 第 用 的 性 能 度量 , 因此 我 们 可 试图 让 均 
方 误差 最 小 化 , 即 


(w”, b") = argmin > (f (zi) — Yi) 


t=] 


= arg min Oe 


(wb) j=] 


(3.4) 


wr; — b)* . 


均 方 误差 有 非常 好 的 几何 意义 , 它 对 应 了 常用 的 欧 几 里 得 距离 或 简称 “ 欧 
氏 距 离 ”(Euclidean distance). 基于 均 方 误差 最 小 化 来 进行 模型 求解 的 方法 称 
为 “最 小 二 乘法 ”(least square method). 在 线性 回归 中 , 最 小 二 乘法 束 是 试图 
找到 一 条 和 下 线 , 使 所 有 样本 到 直线 上 的 欧 氏 距离 之 和 最 小 . 

求解 w AM b TE Ewe = Dic (yi — wri — b)? 最 小 化 的 过 程 , 称 为 线性 回归 
模型 的 最 小 二 乘 “ 参 数 估 计 ”(parameter estimation). 我 们 可 将 Etwb) 分 别 
Xf w A b eS, 得 到 


OE ww ue 一 
oem <2 (wy? Sowa] ; (3.5) 
OE ww, 一 
=o (mi — > (yi 一 wz:)) : (3.6) 
然后 令 式 (3.5) 和 (3.6) 为 零 可 得 到 w Al b Be PEAR HY AI ZK (closed-form) fi# 
3 yi (x; — T) 
w = il (3.7) 


L 2 1 = a 
pata (Ee) 
i= 


3 


a 


.2 线性 回归 


亦 称 “多 变量 线性 回 


90 


Th 


bee Di — wri) , (3.8) 


HEP z= 2 ya Wo 的 均值 
i=1 

E— FBR AY) Te ee Gn AS a FP SK BD, 样本 由 d 个 属性 描述 . 此 时 我 们 

试图 学 得 
f(wmi) =w mi 十 六 使 得 f(a) S yi , 

这 称 为 “多 元 线性 回归 ”(multivariate linear regression). 

类 似 的 , 可 利用 最 小 二 乘法 来 对 w Fl b 进行 估计 . 为 便于 讨论 , 我 们 把 w 
FI b RAA HEJER 多 = (w;b), 相应 的 , 把 数据 集 D 表示 为 一 个 m x (d+ 1) 
大 小 的 矩阵 ,其 中 每 行 对 应 于 一 个 示例 , 该 行 前 d 个 元 素 对 应 于 示例 的 a 个 
属性 值 , 最 后 一 个 元 了 素 恒 置 为 1, 即 


Til £12 Tid x, 1 
T 
T21 T22 Təd æa 1 
X 一 n = s 
| 1 IT ] 
Tml Lime ++» Limd Tan 


FRE Py 1c SAR EJE y = (y1; yo; -3 Ym), 则 类 似 于 式 (3.4), 有 
WwW” = arg min (y 一 Xw) (y — Xù). (3.9) 


& Ew = (y — Xw)* (y — Xù), XI w RKF E] 
OEY, 
Ow 
S EA Sa w 最 优 解 的 团 式 解 , (A ie RT ae, 比 单 变量 情形 
要 复杂 一 些 . 下 面 我 们 做 一 个 简单 的 讨论 . 


当 XTX A iG FRAG ME (full-rank matrix) 或 正定 矩阵 (positive definite ma- 
trix) IN, 令 式 (3.10) 为 零 可 得 


= 2 X! (Xù — y) . (3.10) 


w* = (XTX) xTy, (3.11) 


其 中 (XTX) 是 矩阵 (XTX) HWE. > êi = (zi; 1), 则 最 终 学 得 的 多 元 
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例如 ， 生物 信息 学 的 基 
因 芯 片 数 据 中 常 有 成 千 上 
万 小 属性 , 但 往往 只 有 几 
十 、 上 百 个 样 例 . 

回忆 一 下 : 解 线 性 方程 
组 时 , 若 因 变量 过 多 , 则 会 
解 出 多 组 解 . 

归纳 篇 好 参见 1.4 节 ; 正 
则 化 参见 6.4、11.4 节 . 
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线性 回归 模型 为 
fê) = êF (XTX) XTy. (3.12) 


然而 , 现实 任务 中 六 1XX 往往 不 是 满 秩 矩阵. 例如 在 许多 任务 中 我 们 会 遇 到 
大 量 的 变量 , 其 数目 甚至 超过 样 例 数 ,导致 诺 的 列 数 多 于 行 数 , KIX 显然 不 请 
PR. 此 时 可 解 出 多 个 他 , 它们 都 能 使 均 方 误差 最 小 化 . 选择 哪 一 个 解 作 为 输出 ， 
将 由 学 习 算 法 的 归纳 偏好 决定 , 常见 的 做 法 是 引入 正则 化 (regularization) JM. 


线性 模型 虽 简 单 , 却 有 丰富 的 变化 . 例如 对 于 样 例 (x,y), y E€ R, 当 我 们 希 
望 线 性 模型 (3.2) 的 预测 值 双 近 真 实 标 记 y 时 , 就 得 到 了 线性 回归 模型 . 为 便于 
WEE, 我 们 把 线性 回归 模型 简写 为 


y=wiet+db. (3.13) 


AY a SA (Ey 的 衍生 物 呢 ? Bo hk, 假设 我 们 认为 示例 所 对 应 的 输 
出 标记 古 在 指数 尺度 上 变化 , 那 束 可 将 输出 标记 的 对 数 作为 线性 模型 瘟 近 的 目 
br, BU 

Iny = wx +b. (3.14) 


这 就 是 “对 数 线性 回归 ”(log-linear regression), 它 实际 上 是 在 试图 让 ew ete 
通 近 y. 式 (3.14) 在 形式 上 仍 是 线性 回归 , 但 实质 上 已 是 在 求 取 输入 空间 到 输出 
空间 的 非 线 性 函数 映射 , 如 图 3.1 所 示 . 这 里 的 对 数 函 数 起 到 了 将 线性 回归 模 
型 的 预测 值 与 夏 实 标记 联系 起 来 的 作用 . 


| 
nd z F f 


图 3.1 对 数 线性 回归 示意 图 


3.3 ”对 数 几 率 回 归 


g(-) 连续 且 充 分 光滑 ， 


广义 线性 模型 的 和 参数 估 
计 常 通过 加 权 最 小 二 乘法 
或 极 大 似 然 法 进行 ， 


亦 称 Heaviside AA. 
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更 一 般 地 , 考虑 单调 可 微 图 数 g(-), & 
y=g ‘(wax +b), (3.15) 


这 样 得 到 的 模型 称 为 “广义 线性 模型 ”(generalized linear model), 其 中 国 数 
g(-) 称 为 “联系 函数 ”(link function). WA, 对 数 线性 回归 是 广义 线性 模型 在 
g(-) = In(-) 时 的 特例 . 


3.3 AALS SNA 


上 一 节 讨 论 了 如 何 使 用 线性 模型 进行 回归 学 习 , 但 若 要 做 的 是 分 类 任务 该 
怎么 办 ? 答案 歼 涵 在 式 (3.15) 的 广义 线性 模型 中 : 只 需 找 一 个 单调 可 微 函 数 将 
分 类 任务 的 真实 标记 y 与 线性 回归 模型 的 预测 值 联系 起 来 . 

考 让 二 分 类 任务 , 其 输出 标记 y © {0,1}, 而 线性 回归 模型 产生 的 预测 值 
z = w'r +b 是 实 值 , 于 是 , 我 们 需 将 实 值 z 转换 为 0/1 值 . 最 理想 的 是 “单位 
阶 跃 函数 ” (unit-step function) 


0, 2<0; 
y= 0.5, z=0; (3.16) 
l, z2z>0, 


EMME z RP SRA AEA, 小 于 零 则 判 为 反例 , E AN i EE N BY 
ERAR, 如 图 3.2 ras. 


图 3.2 单位 阶 跃 函数 与 对 数 几 率 函 数 
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注意 对 数 几 率 函 数 与 
“tp Hx hy ae” In(-) 不 同 . 


Sigmoid 函数 即 形似 5 
的 函数 ， 对 府 函 教 是 Sig- 
moid 函数 最 重要 的 代表 ， 
在 第 5 章 将 看 到 它 在 神经 
网 络 中 的 重要 作用 . 


ARAKI HA “HS 
ja” 但 中 文 “还 辑 ” 与 
logistic #7 logit #4) @ 44 
去 其 远 , 因此 本 书 意译 为 
“对 数 几 率 回 归 ”， 简 称 
“对 府 回 归 ” . 
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但 从 图 3.2 可 看 出 , 单位 阶 跃 函数 不 连续 , 因此 不 能 直接 用 作 式 (3.15) 中 
的 9 ()， 于 是 我 们 希望 找到 能 在 一 定 程 度 上 近似 单位 阶 跃 函数 的 “ 替 
代 国 数 ”(surrogate function), Jf #7 #2 HA AY th. XT Be JL Æ PK AW (logistic 
function) [EER EE is eR eR AB: 


1 


= 一 一 一 一 . 3.17 
Lee ( ) 


y 
从 图 3.2 可 看 出 , 对 数 几 率 函 数 是 一 种 “Sigmoid 函数 ”, EK z 值 转化 为 一 个 
接近 0 或 1 的 v 值 , 并 且 其 输出 值 在 z = 0 附近 变化 很 陡 . 将 对 数 几 率 函 数 作为 
g7 () 代入 式 (3.15), 得 到 


1 
I= Iere ae i (3.18) 
类 似 于 式 (3.14), 式 (3.18) 可 变化 为 
Ing = wre +b. (3.19) 


行将 y 视 为 样本 a 作为 正 例 的 可 能 性 , 则 1 一 vy 是 其 反例 可 能 性 , 两 者 的 比值 


y - 
is (3.20) 


BRAY “JLE” (odds), 反映 了 zx 作为 正 例 的 相对 可 能 性 . 对 几率 取 对 数 则 得 到 
“对 数 几 率 ”(log odds, JF#K logit) 


y 
mi (3.21) 


由 此 可 看 出 , 式 (3.18) 实 际 上 是 在 用 线性 回归 模型 的 预测 结果 去 通 近 
真实 标记 的 对 数 几 率 , 因此 , 其 对 应 的 模型 称 为 “对 数 儿 率 回 归 ”(logistic 
regression, J ÆR logit regression). 特别 需 注 意 到 , 虽然 它 的 名 宇 是 “回归 ”, 但 
实际 却 是 一 种 分 类 学 习 方 法 . 这 种 方法 有 很 多 优点 , 例如 它 是 直接 对 分 类 可 能 
性 进行 建 模 , Do ie SFC A oT A, 这 样 加 避 例 了 假设 分 布 不 准确 所 市 来 的 
问题 ; 它 不 是 仅 预 测 出 “类 别 ”, 而 是 可 得 到 近似 概率 了 预测, 这 对 许多 需 利用 概 
率 辅助 决策 的 任务 很 有 用 ; 此 外 , 对 率 函 数 是 任意 阶 可 导 的 凸 函数 , 有 很 好 的 数 
学 性 质 , 现 有 的 许多 数值 优化 算法 都 可 直接 用 于 求 取 最 优 解 . 
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下 面 我 们 来 看 看 如 何 确定 式 (3.18) 中 的 w 和 车 将 式 (3.18) 中 的 yy 视 为 类 
后 验 概 率 估 计 p(y = 1 | x), 则 式 (3.19) 可 重 写 为 


“Hola (3.22) 
ew w+b 
p(y = 1 | x) = ILe e: (3.23) 
l 
piy =0| ax) = (3.24) 


1 + ew a+b " 
于 是 , 我 们 可 通过 “ 极 大 似 然 法 ”(maximum likelihood method) 来 估计 
极 大 似 然 法 参见 7.2 节 . ay 和 b， 给 定数 据 集 {[(xi y }， 对 率 回 归 模 型 最 大 化 “对 数 似 然 ”(log- 
likelihood) 
€(w,b) = > — In p(y | £i; w, bd) , (3.25) 
=] 


即 令 每 个 样本 属于 其 真实 标记 的 概率 越 大 越 好 . 为 便于 讨论 , + 8 = (w;b), 
è = (x;1), W ws + b 可 简写 为 Bra. HS pi(#;B) = ply = 1 | 8), 
po(#; B) = p(y = 0 | 2; 8) = 1 — pı (&; B), 则 式 (3.25) 中 的 似 然 项 可 重 写 为 


piyi | wi; w, b) = yipi (ĉi; A) + (1 — yi) po(#i; A) . (3.26) 


将 式 (3.26) 代 入 (3.25), 并 根据 式 (3.23) 和 (3.24) 可 知 , 最 大 化 式 (3.25) 等 价 于 
最 小 化 

a RE ye € {0,1}. UB) = >> (-viBT# +n (1+ e"*)) . (3.27) 
i=1 


去 (3.27) 是 关于 局 的 高 阶 可 导 连 续 凸 函数 , 根据 凸 优化 理论 [Boyd and 
Vandenberghe, 2004], 经 典 的 数值 优化 算法 如 梯度 下 降 法 (gradient descent 


参见 附录 B.A. method)、 和 牛顿 法 (Newton method) 等 都 可 求 得 其 最 优 解 , 于 是 就 得 到 
B* = arg min £( 8) . (3-28) 
B 


以 牛顿 法 为 例 , E t + 1 轮 迭 代 解 的 更 新 公式 为 


82e Ti ae 
B” = p — (BE) —- (3.29) 
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严格 说 来 LDA 与 Fisher 
判别 分 析 稍 有 不 同 , 前 者 
假设 了 各 类 样本 的 协 方差 
矩阵 相同 且 满 秩 . 


其 中 关于 B 的 一 阶 、 二 阶 导数 分 别 为 


ot (B) A, p 
a To 2 ĉilyi — pı (ĉi; B)) ， (3.30) 
2p fi m 
“ap = D pı (ĉi; B)(1 — pı (ĉ:; B)) . (3.31) 


3.4 线性 判别 分 析 


线性 判别 分 析 (Linear Discriminant Analysis, 简称 LDA) 是 一 种 经 典 的 线 
性 学 习 方 法 , 在 二 分 类 问题 上 因为 最 早 由 [Fisher, 1936] 提出 , JER “Fisher #] 
别 分 析 ”. 

LDA 的 思想 非常 朴素 : 给 定 训 练 样 例 集 , 设法 将 样 例 投影 到 一 条 直线 上 ， 
使 得 同类 样 例 的 投影 点 尽 可 能 接近 、 天 类 样 例 的 投影 点 尽 可 能 远离 ; 在 对 新 样 
本 进行 分 类 时 , 将 其 投影 到 同样 的 这 条 和 直线 上 , 再 根据 投影 点 的 位 置 来 确定 新 
样本 的 类 别 . 图 3.3 给 出 了 一 个 二 维 示 意图 . 


投影 方向 人 


3.3 LDA 的 二 维 示 意图 “+”、“-” 分 别 代 表 正 例 和 反例 , 栅 圆 表示 数据 徐 的 
Spee BR, 虚线 表示 投影 , 红色 实心 圆 和 实心 三 角形 分 别 表 示 两 类 样本 投影 后 的 中 心 点 . 


给 定数 据 集 万 = {(xi y) n yi € {0,1}, $ Xa wir D 分 别 表 示 第 
i € {0,1} 类 示例 的 集合 、 均 值 同 量 、 协 方差 矩阵 . 大 将 数据 投影 到 直线 wE, 
则 两 类 样本 的 中 心 在 直线 上 的 投影 分 别 为 w" uo 和 wtu; 若 将 所 有 样本 点 都 
投影 到 直线 上 , 则 两 类 样本 的 协 方差 分 别 为 wl Dow 和 wl Sw. FERE 


3.4 线性 判别 分 析 


E w fe, Wl ay 
FES RF a, aw 也 是 
式 (3.35) 的 解 . 


拉 格 并 日 磁 子 法 参见 附 
录 B.1. 
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一 维 空 间 , 因此 wT uo, wui wl Sow Al wl Dy w 均 为 实数 . 


欲 使 同类 样 例 的 投影 点 尽 可 能 接近 , 可 以 让 同类 样 例 投影 点 的 协 方差 尽 可 
能 小 , 即 wT Xow + aoTZlao 尽 可 能 小 ; 而 欲 使 异类 样 例 的 投影 点 尽 可 能 远离 ， 
可 以 让 类 中 心 之 间 的 距离 尽 可 能 大 , 即 aoTpo — wT yer ||3 尽 可 能 大 . 同时 考虑 
二 者 , 则 可 得 到 欲 最 大 化 的 目标 


J= wT po — wfm |l 
widow + wisiw 


Ti _ 加 T 
_ w (Ho — #1)(Ho — m) w (3.32) 
wt (Xo 十 1) w 


定义 “类 内 散 度 和 矩阵”(within-class scatter matrix) 


Su = S0 + D1 
= >》 (@— mo) (æ — po) + D> (@— m1) (w@— m) (3.33) 
TEXD TEXL 


以 及 “类 间 散 度 和 矩阵 ”(between-class scatter matrix) 


Sp = (oo — mı) (Mo — p1)" , (3.34) 

则 式 (3.32) 可 重 写 为 ~ 
Ww Spw | | 
J = a (3.35) 


I< ize LDA 欲 最 大 化 的 目标 , BIS, 与 Sy WI “) Cia Fl Hi” (generalized 
Rayleigh quotient). 


如 何 确 定 w WE? 注意 到 式 (3.35) 的 分 子 和 分 母 都 是 关于 w 的 二 次 项 , 因此 
式 (3.35) 的 解 与 w 的 长 度 无 关 , 只 与 其 方向 有 关 . 不 失 一 般 性 , S w Suw = 1, 
则 式 (3.35) 等 价 于 


min —w+ S,w (3.36) 
Ww 


s.t. w'S,w=1. 
由 拉 格 朗 日 乘 子 法 , 上 式 等 价 于 


Sw 一 AS,,w , (3.37) 
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(Ho 一 wi) w 是 标量 . 


奇异 值 分 解 参 见 附 录 
A.3. 


参见 习题 7.5. 
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其 中 入 是 拉 格 明日 乘 子 . 注意 到 Su 的 方 同 恒 为 jo 一 ui 不 妨 令 
Spw = (Mo 一 A1) ， (3.38) 


ARA ZK (3.37) E04 
w = Sy (mo — m) . (3.39) 

考虑 到 数值 解 的 稳定 性 , 在 实践 中 通常 是 对 S,, 进行 奇异 值 分 解 , BY S,, = 
UEV! 这 里 于 是 一 个 实 对 角 和 抢 阵 , 其 对 角 线 上 的 元 素 是 Suy 的 奇异 值 , 然后 
再 由 Sj1 = VE IUT 得 到 S31. 

值得 一 提 的 是 , LDA 可 从 贝 叶 斯 决策 理论 的 和 角度 来 围 释 , 并 可 证 明 , 当 两 
类 数据 同 先 验 、 满 足 高 斯 分 布 且 协 方差 相等 时 , LDA 可 达到 最 优 分 类 . 

可 以 将 LDA 推广 到 多 分 类 任务 中 . 假定 存在 N 个 类 , 且 第 i 类 示例 数 为 
mi. 我们 先 定义 “全 局 散 度 矩阵 ” 


St = S; + Sw 


= X (x; — u)(x; — u)” , (3.40) 
i=1 
其 中 po 是 所 有 示例 的 均值 向 量 . 将 类 内 散 度 和 矩阵 Sw 重 定 义 为 每 个 类 别 的 散 度 
矩阵 之 和 , 即 


Su = > Sui; (3.41) 
t=] 
其 中 
Sw = Dd) (Œ — pi) (æ — pi)” (3.42) 
rex, 
FH (3.40) ~(3.42) AI #4 
Sp = Sr Sao 
N 
本 > mip —p)(mi-— pw)". (3.43) 
i=1 


显然 , 多 分 类 LDA 可 以 有 多 种 实现 方法 : 使 用 So, Su, Se 三 者 中 的 任何 两 
个 即 可 . 常见 的 一 种 实现 是 采用 优化 目标 


35 B72 =5) 


最 多 有 N—1 个 非 零 特 
征 值 . 


降 维 参见 第 10 章 . 


例如 上 一 节 最 后 介绍 的 
LDA 推广 . 


通常 称 分 类 学 习 器 为 
“分 类 pan (classifier). 


关于 多 个 分 类 器 的 集成 ， 
参见 第 8. 


OvR 亦 称 OvA (One vs. 
All), 但 OQvA 这 个 说 法 不 严 
te, 因为 不 可 能 把 “所 有 
类 ”作为 反 类 . 


亦 可 根据 各 分 类 器 的 预 
测 置 信和 度 等 信息 进行 集成 , 
参见 8.4 节 . 
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tr (WTS,W) 
max 一 一 一 一 一 一 一 一 ， 
w tr(WTS W) | 


其 中 W e RIX- tr() 表示 矩阵 的 迹 (trace). 式 (3.44) 可 通过 如 下 广义 特征 
值 问 题 求 解 : 


(3.44) 


SW = AS W . (3.45) 


W AY 4 I SiS 的 d! 个 最 大 非 零 广义 特征 值 所 对 应 的 特征 问 量 组 成 的 
AERE, d'S N — 1. 

若 将 W 视 为 一 个 投影 矩阵 , 则 多 分 类 LDA 将 样本 投影 到 gw' 维 空间 , d 通 
常 远 小 于 数据 原 有 的 属性 数 d. 于是, 可 通过 这 个 投影 来 减 小 样本 点 的 维 数 ， 
且 投 影 过 程 中 使 用 了 类 别 信息 , 因此 LDA 也 常 被 视 为 一 种 经 典 的 监督 降 维 
技术 . 


3.5 多 分 类 学 习 


现实 中 常 遇 到 多 分 类 学 习 任 务 . 有 些 二 分 类 学 习 方 法 可 直接 推广 到 多 分 类 ， 
但 在 更 多 情形 下 , 我 们 是 基于 一 些 基 本 策略 , 利用 二 分 类 学 习 器 来 解决 多 分 类 
问题 . 

ARRE, 考虑 NTA] Ci, Co, OCN, 和 多 分 类 学 习 的 基本 思路 是 
“ 拆 解 法 ”, 即将 多 分 类 任务 拆 为 若干 个 二 分 类 任务 求解 . 具体 来 说 , 先 对 问题 
进行 拆 分 , 然后 为 拆 出 的 每 个 二 分 类 任务 训练 一 个 分 类 器 ; 在 测试 时 , 对 这 些 分 
类 器 的 预测 结果 进行 集成 以 获得 最 终 的 多 分 类 结果 . 这 里 的 关键 是 如 何 对 多 分 
类 任务 进行 拆 分 , 以 及 如 何 对 多 个 分 类 器 进行 集成 . 本 节 主 要 介绍 拆 分 策略 . 

最 经 典 的 拆 分 策略 有 三 种 : “一 对 一 ”(One vs. One, 简称 OQvO)、“ 一 对 
HES” (One vs. Rest, 简称 OvR) 和 “多 对 多 ”(Many vs. Many, 简称 MvM). 

给 定数 据 集 DD = {(el, y1), (®2, Y2), (Bm, Ym)}, yi E€ {C1, C2,..., Cry}. 
OvO 将 这 N 个 类 别 两 两 配对 , 从 而 产生 N(N 一 1)/2 个 二 分 类 任务 , 例如 OvO 
将 为 区 分 类 别 C; 和 Cy 训练 一 个 分 类 器 , 该 分 类 器 把 D 中 的 Ci 类 样 例 作为 正 
Pil, C; 类 样 例 作为 反例 . 在 测试 阶段 , 新 样本 将 同时 提交 给 所 有 分 类 髓 , 于 是 我 
们 将 得 到 NUN 一 1)/2 个 分 类 结果 , 最 终结 果 可 通过 投票 产生 : 即 把 被 预测 得 最 
多 的 类 别 作 为 最 终 分 类 结果 . 图 3.4 给 出 了 一 个 示意 图 . 

OVR 则 是 每 次 将 一 个 美的 样 例 作 为 正 例 、 所 有 其 他 类 的 样 例 作为 反例 来 
训练 N 个 分 类 器 . 在 测试 时 铸 仅 有 一 个 分 类 器 预测 为 正 类 , 则 对 应 的 类 别 标记 
作为 最 终 分 类 结果 , 如 图 3.4 所 示 . 着 有 多 个 分 类 器 预测 为 正 类 , 则 通常 考虑 各 
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ATEC VARS 
~ 


用 Spey 
两 FE AF fo] 
— 分 类 器 2 


(E ye hoa (Hi Be, 
(Le) BB) = 4 >< (ao ee 
(Le. Ci ) => f 2 Cy 结果 ([ cs | e) SRI 4? G. 
(Le] E) > hoo (eJ EEE) = > > 

(| © | | G1 |) > fs > Or 

(Le: | Lel) = r>a 


3.4 OvO 与 OVR 示意 图 


预测 


分 类 器 的 预测 和 置信 上 度 , 选择 置信 和 度 最 大 的 类 别 标记 作为 分 类 结果 . 

容易 看 出 , OVR 只 需 训 练 N 个 分 类 器 , 而 OvO 需 训 练 N(N 一 1)/2 个 分 
Aas, IE, OvO 的 存储 开销 和 测试 时 间 开 销 通 常 比 OvR 更 大 . 但 在 训练 时 ， 
OVR 的 每 个 分 类 器 均 使 用 全 部 训练 样 例 , 而 OvO 的 每 个 分 类 器 仅 用 到 两 个 类 
的 样 例 , 因此 , 在 类 别 很 多 时 ,，Ovo 的 训练 时 间 开 销 通 常 比 OvR 更 小 . 至 于 预 
测 | 性 能 , 则 取决 于 其 体 的 数据 分 布 , 在 多 数 情 形 下 两 者 差不多 . 

MyM 是 每 次 将 若 于 个 类 作为 正 类 , 若干 个 其 他 类 作为 反 类 . 显然 , OvO 和 
OvR 是 MvM 的 特例 . MvM 的 正 、 反 类 构造 必须 有 特殊 的 设计 , 不 能 随意 选 
BY. 这 里 我 们 介绍 一 种 最 常用 的 MvM 技术 : “ 纠 错 输出 码 ” (Error Correcting 
Output Codes, faj#K ECOC). 

ECOC [Dietterich and Bakiri, 1995] 是 将 编码 的 思想 引入 类 别 拆 分 , 并 尽 
可 能 在 解码 过 程 中 具有 容错 性 . ECOC 工作 过 程 主要 分 为 两 步 : 


e 编码 : 对 NN 个 类 别 做 M RUSS, 每 次 划分 将 一 部 分 关 别 划 为 正 基 , 一 部 
分 划 为 反 类 , 从 而 形成 一 个 二 分 类 训练 集 ; 这 样 一 共产 生 M 个 训练 集 , 可 
训练 出 M 个 分 类 器 . 

© 解码 : M 个 分 类 强 分 列 对 测试 样本 进行 预测 , 这 些 预 测 标 记 组 成 一 个 编 
码 . 将 这 个 预测 编码 与 每 个 类 别 各 目的 编码 进行 比较 , 返回 其 中 距离 最 小 
的 类 别 作为 最 终 预 测 结果 . 


3.5 ”多 分 类 学 习 
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类 别 划 分 通过 “编码 矩阵 ”(coding matrix) 指 定 ， 编码 矩阵 有 多 种 形式 ， 


常见 的 主要 有 二 元 码 [Dietterich and Bakiri, 1995] 和 三 元 码 [Allwein et al., 
2000]. 前 者 将 每 个 类 别 分 别 指定 为 正 类 和 反 类 , 后 者 在 正 、 反 类 之 外 , 还 可 指 
定 “ 停 用 类 ”. 图 3.5 给 出 了 一 个 示意 图 , 在 图 3.5(a) 中 , 分 类 器 fo 将 C 类 和 
Cs 类 的 样 例 作 为 正 例 , Co 类 和 Cy 类 的 样 例 作 为 反例 ; 在 图 3.5(b) 中 , 分 类 器 


fa FF Ci RA Ca 关 的 样 例 作为 正 例 ,Cs 类 的 样 例 作 为 反例 . 在 解码 阶段 , 各 分 
类 人 右 的 预测 结果 联合 起 来 形成 了 测试 示例 的 编码 , 该 编码 与 各 类 所 对 应 的 编码 
进行 比较 , 将 距离 最 小 的 编码 所 对 应 的 类 别 作 为 预测 结果 . 例如 在 图 3.5(a) H, 
在 基于 欧 氏 距离 , 预测 结果 将 是 Cs. 


fi fo fs fa fs fe fr a SE at 

yy p yyy yy 

C > BB |- Bm |: 一 4 4 

C: 一 i oo + | -1 0 2 2 

“imm | C3 一 + 2v5 
-1| -1 E O > PEI BG] «| 3 Vio 


(a) 二 元 ECOC 三 (b) 三 元 ECOC 码 


图 3.5 ECOC 编码 示意 图 “+l”、 “一 ]” 人 分别 表示 学 习 器 f; 将 该 类 样本 作为 
E., At; 三 元 码 中 “0” 表示 fi 不 使 用 该 类 样本 


为 什么 称 为 “ 纠 错 输出 码 ” 呢 ?这 是 因为 在 测试 阶段 , ECOC 编码 对 分 类 
器 的 错误 有 一 定 的 容忍 和 修正 能 力 . 例如 图 3.5(a) 中 对 测试 示例 的 正确 预测 编 
码 是 (一 1, +1, +1, —1, +1), 假设 在 预测 时 茶 个 分 类 器 出 错 了 , 例如 fo 出 错 从 而 
导致 了 错误 编码 (一 1, —1, 十 1 —1, +1), 但 基于 这 个 编码 仍 能 产生 正确 的 最 终 分 
RGR C3. 一 般 来 说 , 对 同一 个 学 习 任务 , ECOC 编码 越 长 , 纠 铬 能 力 越 强 . 然 
而 , 编 公 越 长 , RRS Tis VR a Ras as, TS. FE RIT ER BST KK, 为 一 
方面 , 对 有 限 关 别 数 , 可 能 的 组 合 数目 是 有 限 的 , PS re A a ARES 
意义 . 

对 同等 长 度 的 编码 , 理论 上 来 说 , 任意 两 个 类 别 之 间 的 编码 距离 越 远 , 则 纠 
fe He 77 GR. 因此, 在 人 码 长 较 小 时 可 根据 这 个 原则 计算 出 理论 最 优 编 公 . 然而 ， 
码 长 稍 大 一 些 束 难以 有 效 地 确定 最 优 编 码 , 事实 上 这 是 NP 难 问 题 . 不 过 , UY 
我 们 并 不 需 获 得 理论 最 优 编 码 , 因为 非 最 优 编码 在 实践 中 往往 已 能 产生 足够 好 
的 分 类 器 . 男 一 方面 , 并 不 是 编码 的 理论 性 质 越 好 , 分 类 性 能 就 越 好 , 因为 机 器 
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对 OVR. MvM 来 说 ， 由 
于 对 每 个 类 进行 了 相同 的 
处 理 , 其 拆 解 出 的 二 分 类 
任务 中 类 别 不 平衡 的 影响 
会 相互 抵消 ， 因 此 通常 不 
EEA, 


无 偏 采样 意味 着 真实 样 
ARE, A a EH re A) ZEW] HR 
集中 得 以 保持 . 


第 3 章 线性 模型 


学 习 问 题 涉及 很 多 因素 , 例如 将 多 个 类 拆 解 为 两 个 “类 别 子 集 ”, 不 同 拆 解 方 
式 所 形成 的 两 个 类 别 子 集 的 区 分 难度 往往 不 同 , 即 其 导致 的 二 分 类 问题 的 难度 
不 同 ; 于 是 , 一 个 理论 纠 错 性 质 很 好 、 但 导致 的 二 分 类 问题 较 难 的 编码 , 与 另 一 
个 理论 纠 错 性 质 差 一 些 、 但 导致 的 二 分 类 问题 较 稍 单 的 编码 , 最 终 产 生 的 模型 
TE RE BA SR A SS IRIE Bi. 


3.6 类 别 不 平衡 问题 


前 面 介绍 的 分 类 学 习 方 法 都 有 一 个 共同 的 基本 假设 , 即 不 同类 别 的 训练 样 
例 数目 相当 . 如 果 不 同类 别 的 训练 样 例 数目 稍 有 差别 , 通常 影响 不 大 , 但 车 差别 
很 大 , 则 会 对 学 习 过 程 造 成 困扰 . 例如 有 998 个 反例 , 但 正 例 只 有 2 个 , 那么 学 
习 方 法 只 需 返 回 一 个 永远 将 新 样本 预测 为 反例 的 学 习 器 , 就 能 达到 99.8% 的 精 
RE; 然而 这 样 的 学 习 器 往往 没有 价值 , 因为 它 不 能 预测 出 任何 正 例 . 

类 别 不 平衡 (class-imbalance) 就 是 指 分 类 任务 中 不 同类 别 的 训练 样 例 数 
目 差 别 很 大 的 情况 . 不 失 一 般 性 , 本 节 假 定 正 类 样 例 较 少 , 反 类 样 例 较 多 . 
在 现实 的 分 类 学 习 任 务 中 , 我 们 经 常会 遇 到 类 别 不 平衡 , 例如 在 通过 拆 分 
法 解决 多 分 类 问题 时 , 即使 原始 问题 中 不 同类 别 的 训练 样 例 数 目 相 当 , 在 使 
用 OvR、MvM 策 略 后 产生 的 二 分 类 任务 仍 可 能 出 现 类 别 不 平衡 现象 , 因此 有 
必要 了 解 类 别 不 平衡 性 处 理 的 基本 方法 

从 线性 分 类 器 的 角度 讨论 容易 理解 , 在 我 们 用 y = wla 二 +b 对 新 样本 zz 
进行 分 类 时 , 事实 上 是 在 用 预测 出 的 y 值 与 一 个 阐 值 进行 比较 , 例如 通常 在 
y > 0.5 时 判别 为 正 例 , 否则 为 反例 . y 实际 上 表达 了 正 例 的 可 能 性 , 几率 AS 
则 反映 了 正 例 可 能 性 与 反例 可 能 性 之 比值 , 闪 值 设置 为 0.5 恰 表 明 分 类 器 认为 
真实 正 、 反 例 可 能 性 相同 , 即 分 类 器 决策 规则 为 

若 ar > 1 则 预测 为 正 例 . (3.46) 

然而 , 当 训 练 集中 正 、 反 例 的 数目 不 同时 , 令 mt 表示 正 例 数目 , m 表示 
反例 数目 , 则 观测 几率 是 2, 由 于 我 们 通常 假设 训练 集 是 真实 样本 总 体 的 无 偏 
采样 , 因此 观测 几率 就 代表 了 真实 几率 . 于 是 , 只 要 分 类 器 的 预测 几率 高 于 观测 
几率 就 应 判定 为 正 例 , BH 


#2 >r 则 预测 为 正 例 (3.47) 
l-y mm | l l 


3.7 ”阅读 材料 


亦 称 “再 平衡 ” (rebal- 


ance). 


KRAE TAR “TF RRE 
(downsampling), it 9 +#$ 
亦 称 “上 采样 ” (upsam- 
pling). 


代价 敏感 学 习 研 究 非 
均等 代价 下 的 学 习 . 参见 
2.3.4 7. 


SIL 11 =. 
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但 是 , 我 们 的 分 类 器 是 基于 式 (3.46) 进 行 决 策 , 因此 , 需 对 其 预测 值 进 行 调 
整 , 使 其 在 基于 式 (3.46) 决 策 时 , 实际 是 在 执行 式 (3.47)， 要 做 到 这 一 点 很 容易 ， 
只 需 令 f 

CC 
1—a l—-y mt 

这 束 是 类 别 不 平衡 学 习 的 一 个 基本 策略 一 一 “再 约 放 ” (rescaling). 

再 缩放 的 思想 虽 和 人 简单 , 但 实际 操作 却 并 不 平 几 , 主要 因为 “训练 集 是 真实 
样本 总 体 的 无 俩 采样 ”这 个 假设 往往 并 不 成 立 , 也 就 是 说 , 我 们 未 必 能 有 效 
地 基于 训练 集 观 测 几 率 来 推断 出 真实 几率 . 现 有 技术 大 体 上 有 三 类 做 法 : 第 
一 类 是 也 接 对 训练 集 里 的 反 类 样 例 进 行 “ 从 杀 样 ”(undersampling), BU AER 
一 些 反 例 使 得 正 、 反 例 数 目 接近 , 然后 再 进行 学 习 ; 第 二 类 是 对 训练 集 里 的 
正 类 样 例 进行 “过 采样 ”(oversampling), 即 增加 一 些 正 例 使 得 正 、 反 例 数 目 
接近 , 然后 再 进行 和 学习; 第 三 类 则 是 直接 基于 原始 训练 集 进 行 学 习 , 但 在 用 
训练 好 的 分 类 器 进行 预测 时 , 将 式 (3.48) 柑 入 到 其 决策 过 程 中 , KA “Re 
动 ”(threshold-moving). 

欠 采 样 法 的 时 间 开 销 通 常 远 小 于 过 了 杀 样 法 , 因为 前 者 丢弃 了 很 多 反例 , 使 
得 分 类 器 训练 集 远 小 于 初始 训练 集 , 而 过 采样 法 增加 了 很 多 正 例 , 其 训练 集 
大 于 初始 训练 集 . 需 注 意 的 是 , 过 采样 法 不 能 简单 地 对 初始 正 例 样本 进行 重 
BK, 否则 会 招致 严重 的 过 拟 合 ; 过 采样 法 的 代表 性 算法 SMOTE [Chawla 
et al., 2002] 是 通过 对 训练 集 里 的 正 例 进行 插值 来 产生 额外 的 正 例 . 另 一 方面 ， 
从 采样 法 若 随 机 丢弃 反例 , 可 能 丢失 一 些 重要 信息 ; 从 采样 法 的 代表 性 算法 
EasyEnsemble [Liu et al., 2009] 则 是 利用 集成 学 习 机 制 , 将 反例 划分 为 若干 个 
集合 供 不 同 学 习 器 使 用 , 这 样 对 每 个 学 习 器 来 看 都 进行 了 从 采样 , 但 在 全 局 来 
看 却 不 会 丢失 重要 信息 . 

值得 一 提 的 是 “再 缩放 ”也 是 “代价 敏感 和 学习”(cost-sensitive learn- 
ing) 的 基础 .在 代价 敏感 学 习 中 将 式 (3.48) 中 的 m-/mTt 用 cost* /cost— WE EBER 
By, 其 中 cost? 是 将 正 例 误 分 为 反例 的 代价 , cost 是 将 反例 误 分 为 正 例 的 代价 . 


(3.48) 


3.7 阅读 材料 


“ 黎 玖 表示 ”(sparse representation) 近 年 来 很 受 关 注 , 但 即便 对 多 元 线性 
回归 这 样 简单 的 模型 , 获得 具有 最 优 “ 稀 玖 性 ”(sparsity) 的 解 也 并 不 容易 . Fi 
朴 性 问题 本 质 上 对 应 了 Lo 范 数 的 优化 , 这 在 通常 条 件 下 是 NP 难 问题 . LASSO 
[Tibshirani, 1996] 通过 Lı 范 数 来 近似 Lo TER, AES Pi He WY RK. 
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可 以 证 明 , OvO 和 OvR. 都 是 ECOC 的 特例 [Allwein et al., 2000]. 人们 以 
往 希 望 设计 通用 的 编码 法 ，[Crammer and Singer, 2002] 提出 要 考虑 问题 本 刁 
的 特点, 设计 “问题 依赖 ”的 编码 法 , 并 证 明 寻 找 最 优 的 离散 编码 矩阵 是 一 个 
NP 完全 问题 . 此 后 , 有 多 种 问题 依赖 的 ECOC 编码 法 被 提出 , a Ay AEH ot FR 
出 上 其 有 代表 性 的 二 分 类 问题 来 进行 编 公 [Pujol et al., 2006, 2008]. [Escalera et 
al., 2010] 开发 了 一 个 开源 ECOC FF. 

MvM 除了 ECOC 还 可 有 其 他 实现 方式 , 例如 DAG (Directed Acyclic 
Graph) 拆 分 法 [Platt et al., 2000] 将 类 别 划 分 表达 成 树 形 结构 , 每 个 结 点 对 应 
于 一 个 二 类 分 类 器 . 还 有 一 些 工作 是 致力 于 直接 求解 多 分 类 问题 , 例如 多 类 文 
持 同 量 机 方面 的 一 些 研究 [Crammer and Singer, 2001; Lee et al., 2004]. 

代价 敏感 学 习 中 研究 得 最 多 的 是 基于 类 别 的 “ 误 分 类 代 
价 ”(misclassifcation cost), TU (> FE PEW Æ 2.2 Aras; 本 书 在 提 及 代价 敏感 
学 习 时 , 默认 指 此 类 情形 . 已 经 证 明 , WARES AH “Sa” SRR IG 
最 优 解 [Elkan, 2001], 但 对 多 分 类 任务 , 仅 在 某 些 特殊 情形 下 存在 闭 式 解 [Zhou 
and Liu, 2006a]. 非 均 等 代价 和 类 别 不 平衡 性 虽然 都 可 借助 “再 缩放 ”技术 ， 
但 两 者 本 质 不 同 [Zhou and Liu, 2006b]. 需 注 意 的 是 , 类 别 不 平衡 学 习 中 通常 
是 较 小 类 的 代价 更 高 , 否则 无 需 进 行 特殊 处 理 . 

多 分 类 学 习 中 虽然 有 多 个 类 别 , 但 每 个 样本 仅 属 于 一 个 类 别 . 如 果 和 希望 为 
一 个 样本 同时 预测 出 多 个 类 别 标 记 , 例如 一 幅 图 像 可 同时 标注 为 “ 篮 天 ”、 

“AB” . “Æ” “ ARR Se” , 了 这样 的 任务 束 不 下 是 多 分 类 学 习 , 而 是 
“多 标记 学 习 ”(multi-label learning), 这 是 机 器 学 习 中 近年 来 相当 活跃 的 一 个 
研究 领域 . 对 多 标记 学 习 感 兴趣 的 读者 可 参阅 [Zhang and Zhou, 2014]. 


习题 
习题 
3.1 
3.2 
西瓜 数据 集 3.0a IL p.89 3 3 
的 表 4.5. 
UCI 数据 集 见 3.4 
http: / /archive.ics.,uci.edu/ml/. " 
3.9 
线性 可 分 是 指 存 在 线性 3.6 
超 平 面 能 将 不 同类 的 样本 
点 分 开 . 参见 6.3 F. 
3.7 
3.8* 
3.9 
3.10* 
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试 析 在 什么 情形 下 式 (3.2) 中 不 必 考 虑 偏 置 项 b. 


试 证 明 , 对 于 参数 w, 对 率 回 归 的 目标 函数 (3.18) 是 非 凸 的 , 但 其 对 数 
似 然 函 数 (3.27) 是 凸 的 . 


编程 实现 对 率 回 归 , 并 给 出 西瓜 数据 集 3.0a 上 的 结果 . 


选择 两 个 UCI 数据 集 , 比较 10 折 交 叉 验 证 法 和 留 一 法 所 估计 出 的 对 
率 回归 的 错误 率 . 


编程 实现 线性 判别 分 析 , 并 给 出 西瓜 数据 集 3.0a 上 的 结果 . 


线性 判别 分 析 仅 在 线性 可 分 数据 上 能 获得 理想 结果 , 试 设计 一 个 改进 
方法 , 使 其 能 较 好 地 用 于 非 线 性 可 分 数据 


令 码 长 为 9, 类别 数 为 4, 试 给 出 海 明 距 离 意 义 下 理论 最 优 的 ECOC 
二 元 码 并 证 明之 . 


ECOC 编码 能 起 到 理想 纠 错 作 用 的 重要 条 件 是 : 在 每 一 位 编码 上 出 销 
的 概率 相当 且 独 立 . 试 析 多 分 类 任务 经 ECOC 编码 后 产生 的 二 类 分 
类 器 满足 该 条 件 的 可 能 性 及 由 此 产生 的 影响 . 


使 用 OVR 和 MvM 将 多 分 类 任务 分 解 为 二 分 类 任务 求解 时 , 试 述 为 何 
无 需 专门 针对 类 别 不 平衡 性 进行 处 理 . 


试 推 导出 多 分 类 代价 敏感 学 习 ( 仅 考虑 基于 类 别 的 误 分 类 代价 ) 使 用 
“FEAR” HEARTS EE Be TREN ARF. 
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普 拉 斯 ， 三 人 姓氏 首 字 母 
相同 ,时 称 “3L?” . 
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小 故事 : 关于 “最 小 二 乘法 ” 

1801 F, 意大利 天 文学 家 皮 亚 齐 
发 现 了 1 号 小 行星 “ 谷 神 星 ”, BAR 
踪 观 测 了 40 天 后 , 因 谷 神 星 转 至 太阳 
的 背后 , 皮 亚 齐 失 去 了 谷 神 星 的 位 置 . 
许多 天 文学 家 试图 重新 找到 谷 神 星 , 但 (1993 年 版 德国 10 马克 纸币 上 的 高 斯 像 ) 
都 徒劳 无 获 . 这 引起 了 伟大 的 德国 数 
学 家 高 斯 (1777 一 1855) 的 注意 , 他 发 明了 一 种 方法 , 根据 皮 亚 齐 的 观测 数据 计 
算出 了 谷 神 星 的 轨道 , 后 来 德国 天 文学 家 奥 伯 斯 在 高 斯 预言 的 时 间 和 星空 领域 
重新 找到 了 谷 神 星 . 1809 F, 高 斯 在 他 的 著作 《天 体 运 动 论 》 中 发 表 了 这 种 方 
法 , 即 最 小 二 乘法 . 

1805 F, 在 椭圆 积分 、 数 论 和 几何 方面 都 有 重大 贡献 的 法 国 大 数学 家 勒 让 
德 (1752—1833) 发 表 了 《计算 彗星 轨道 的 新 方法 》, 其 附录 中 描述 了 最 小 二 乘 
法 . 勒 让 德 是 法 国 18 一 19 世纪 数学 界 的 三 驾 马 车 之 一 , 早已 是 法 国 科 学 院 院 
+. 但 勒 让 德 的 书 中 没有 涉及 最 小 二 乘法 的 误差 分 析 , 高 斯 1809 年 的 著作 中 包 
括 了 这 方面 的 内 容 , 这 对 最 小 二 乘法 用 于 数理 统计 、 万 至 今天 的 机 器 学 习 有 极 
为 重要 的 意义 . 由 于 高 斯 的 这 一 重大 贡献 , 以 及 他 声称 自己 1799 年 就 已 开始 使 
用 这 个 方法 , 因此 很 多 人 将 最 小 二 乘法 的 发 明 优先 权 归 之 为 高 斯 . 当时 这 两 位 
大 数学 家 发 生 了 著名 的 优先 权 之 争 , 此 后 有 许多 数学 史家 专门 进行 研究 , 但 至 
今 也 没 弄 清 到 底 是 谁 最 先 发 明 了 最 小 二 乘法 . 


Go9674175N9 FREE 本 


= 
= 
= 
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4.1 基本 流程 


Ma aa 决策 树 (decision tree) 是 一 类 常见 的 机 器 学 习 方 法 . 以 二 分 类 任务 为 例 , 我 

树 ” 有 时 是 指 学 习 方 法 ， 们 希望 从 给 定 训练 数据 集 学 得 一 个 模型 用 以 对 新 示例 进行 分 类 , 这 个 把 样本 

人 分 类 的 任务 , 可 看 作对 “当前 样本 属于 正 类 吗 ?” 这 个 问题 的 “决策 ”或 “ 判 
定 ” 过 程 . 顾名思义 , 决策 树 是 基于 树 结构 来 进行 决策 的 , 这 恰 是 人 类 在 面临 决 
策 问 题 时 一 种 很 自然 的 处 理 机 制 . 例如 , 我 们 要 对 “这 是 好 瓜 吗 ?” 这 样 的 问题 
进行 决策 时 , 通常 会 进行 一 系列 的 判断 或 “ 子 决策 ”: 我 们 先 看 “ 它 是 什么 颜 
色 ?”, 如 果 是 “青绿 色 ”, 则 我 们 再 看 “ 它 的 根 蒂 是 什么 形态 ?”, WR “ie 
缩 ”, 我 们 再 判断 “ 它 敲 起 来 是 什么 声音 ?”, 最 后 , 我 们 得 出 最 终 决策 : 这 是 个 
好 瓜 . 这 个 决策 过 程 如 图 4.1 所 示 . 


图 4.1 西瓜 问题 的 一 棱 决 策 树 


显然 , 决策 过 程 的 最 终结 论 对 应 了 我 们 所 希望 的 判定 结果 , 例如 “是 ”或 
“不 是 ”好 瓜 ; 决策 过 程 中 提出 的 每 个 判定 问题 都 是 对 东 个 属性 的 “测试 ”,， 
例如 “色泽 =?”“ 根 带 =?”; 每 个 测试 的 结 采 或 是 村 出 最 终结 论 , 或 是 寻 出 
进一步 的 判定 问题 , 其 考虑 范围 是 在 上 次 决策 结果 的 限定 范围 之 内 , 例如 车 在 
“色泽 = 青绿 ”之 后 再 判断 “ 根 带 =?”, 则 仅 在 考虑 至 绿色 瓜 的 根 蒂 . 

一 般 的 , 一 棵 决策 树 包含 一 个 根 结 点 、 帮 干 个 内 部 结 点 和 若干 个 叶 结 点 ; 
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递归 返回 , 情形 (1). 


递归 返回 , 情形 (2). 

我 们 将 在 下 一 节 讨 论 如 
何 获得 最 优 划 分 属性 . 

递归 返回 , 情形 (3). 


AL A 中 去 掉 Clk u 
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叶 结 点 对 应 于 决策 结果 , 其 他 每 个 结 点 则 对 应 于 一 个 属性 测试 ; 每 个 结 点 包含 
的 样本 集合 根据 属性 测试 的 结果 被 划分 到 子 结 点 中 ; 根 结 点 包含 样本 全 和 集 . 从 
根 结 点 到 每 个 叶 结 点 的 路 径 对 应 了 一 个 判定 测试 序列 . 决策 树 学 习 的 目的 是 为 
了 产生 一 棵 泛 化 能 力 强 , 即 人 处理 未 见 示 例 能 力 强 的 决策 树 , 其 基本 流程 人 萤 循 简 
PAA AAS “opie” (divide-and-conquer) lg, 如 图 4.2 所 示 . 


答 入 : 训练 集 D = {(2%1, y1); (x2, Y2), weej (Em, Ym) Y; 
属性 集 A= {ai, a2, er 
过 程 : 函数 TreeGenerate(D, A) 
1: ÆRA A node; 
2: if 中 样本 全 属于 同一 类 别 C then 
3 将 node 标记 为 C 类 叶 结 点 ; return 
4: end if 
5: if A=S OR D 中 样本 在 A 上 取 值 相同 then 
6: ”将 node 标记 为 叶 结 点 , 其 类 别 标记 为 D 中 样本 数 最 多 的 类 ; return 
7: end if 
8: 从 A 中 选择 最 优 划 分 属性 ax; 
9: for a, 的 每 一 个 值 a* do 
10: WA node 生成 一 个 分 支 ; S D, ER D 中 在 a, 上 取 值 为 a* 的 样本 子 集 ; 
11: if D, AZ then 
12: 将 分 支 结 点 标记 为 叶 结 点 , 其 类 别 标记 为 万 中 样本 最 多 的 类 ; return 
13: else 


14: 以 TreeGenerate(D,, A \ {as p AITE wm 
15: end if 
16: end for 


输出 : 以 node 为 根 结 点 的 一 棵 决策 树 
图 4.2 决策 树 学 习 基 本 算法 


显然 , 决策 树 的 生成 是 一 个 递归 过 程 . 在 决策 树 基 本 算法 中 , 有 三 种 情形 会 
导致 递归 返回 : (1) 当前 结 扣 包含 的 样本 全 属于 同一 类 别 , 无 需 划 分 ; (2) 当前 
属性 集 为 空 , 或 是 所 有 样本 在 所 有 属性 上 取 值 相同 , 无 法 划分 ; (3) 当前 结 点 包 
含 的 样本 集合 为 空 , 不 能 划分 . 


在 第 (2) 种 情形 下 , 我 们 把 当前 结 操 标记 为 叶 结 点 , 并 将 其 类 别 设 定 为 该 结 
FART PEA Be INA; 在 第 (3) 种 情形 下 , 同样 把 当前 结 点 标记 为 叶 结 扣 , 但 
将 其 关 别 设 定 为 其 父 结 氮 所 人 样本 最 多 的 其 别 . 注意 这 两 种 情形 的 处 理 实质 不 
同 : 情形 (2) 是 在 利用 当前 结 点 的 后 验 分 布 , 而 情形 (3) 则 是 把 父 结 点 的 样本 分 布 
作为 当前 结 点 的 先 验 分 布 . 


4.2 划分 选择 


p = 0, R] plogz p = 0. 


Ent(D) 的 最 小 值 为 0， 
最 大 值 为 logs Y|. 


ID3 名 字 中 的 ID Æ It- 
erative Dichotomiser (744% 


— 4 B) 44 fa) FR. 
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4.2 划分 选择 


由 算法 4.2 可 看 出 , 决策 树 学 习 的 关键 是 第 8 行 , 即 如 何 选 择 最 优 划 分 属 
性 . 一 般 而 言 , 随 痢 划分 过 程 不 断 进行 , 我 们 希望 决策 树 的 分 文 结 所 所 包含 的 样 
本 尽 可 能 属于 同一 类 别 , BUA “ARE” (purity) A RER E. 


4.2.1 fA Bie me 


“45 AK” (information entropy) 是 度量 样本 集合 纯度 最 常用 的 一 种 指标 . 
假定 当前 样本 和 集合 D 中 第 上 类 样本 所 占 的 比例 为 pi (k = 1,2,...,|V|), WD 
HHE RE SA e 


Ent( D) = — X Pk loge Pk - (4.1) 
k=1 


Ent(D) 的 值 越 小 , W D HARRE. 
假定 离散 属性 a A V 个 可 能 的 取 值 {fa oa” .aa “小 若 使 用 a 来 对 样本 集 
D 进行 划分 , 则 会 产生 V 个 分 文 结 扩 , 其 中 第 wv 个 分 文 结 扩 包 含 了 D 中 所 有 在 
属性 a 上 取 值 为 a? 的 样本 , 记 为 DY. 我 们 可 根据 式 (4.1) 计算 出 D” 的 信息 燃 ， 
再 考虑 到 不 同 的 分 文 结 点 所 包含 的 样本 数 不 同 , 给 分 支 结 点 赋予 权重 |D”|/|DI, 
即 样本 数 越 多 的 分 文 结 点 的 影 啊 越 大 , 于 是 可 计算 出 用 属性 a 对 样本 集 D 进行 
划分 所 获得 的 “信息 增益 ”(information gain) 
ID"| 
| 


V 
Gain(D,a) = Ent(D) 一 》， TD) Et(”) (4.2) 
v=1 


一 般 而 言 , 信息 增益 越 大 , 则 意味 着 使 用 属性 a 来 进行 划分 所 获得 的 “ 纯 
度 提 升 ” 越 大 . 因此 , 我 们 可 用 信息 增益 来 进行 决策 树 的 划分 属性 选择 , 即 在 图 
4.2 算法 第 8 行 选择 属性 a, = arg max Gain(D, a). 著名 的 ID3 决策 树 学 习 算 

ac 

法 (Quinlan, 1986] 就 是 以 信息 增益 为 准则 来 选择 划分 属性 . 

以 表 4.1 中 的 西瓜 数据 集 2.0 为 例 , 该 数据 集 包 含 17 个 训练 样 例 , 用 以 学 
习 一 棵 能 预测 没 剖 开 的 是 不 是 好 瓜 的 决策 树 . 显然 , || = 2. 在 决策 树 学 习 开 
始 时 , 根 结 点 包含 D 中 的 所 有 样 例 , 其 中 正 例 占 pi = $, 反例 占 p: = 5. F 
是 , 根据 式 (4.1) 可 计算 出 根 结 点 的 信息 业 为 


2 Pi 

8 8 9 9 | 

Ent(D) = — X pr logs Pk = — (= logs 17 + I7 logs =) = 0.998 . 
k=1 
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表 4.1 西瓜 数据 集 2.0 


mod FA 纹理 脐 部 触感 
青绿 dts Ai yeh Hay 清晰 四 陷 便 请 
乌黑 iris Fi AD 清晰 14] Be 便 请 
乌黑 Wes Afi jak mje 清晰 [4] Be MEJE 
育 绿 Wits ei Ueto 清晰 MH] BF WEE 
RA Wes 246i jek me 清晰 四 陷 便 请 
育 绿 AF ie yeh Uy 清晰 AM BRAG 
3 yek Hie FAR FAI] RA 
G FA is yek Mp hail AAU MEE 
乌黑 FA its A FHF FBIM] 便 请 
青绿 hE HE vf He 清晰 平坦 PAG 
RA MERE ia We 模糊 平坦 便 请 


s$ 
af 
局 
5 
7 
3 


m- e e S 
Ain; 
ns 
ai 
oF 


co D cM oh oh om ofS Be Be Be BS 


12 RA Wes yk Hy 模糊 平坦 软 粘 
13 青绿 FH tee yk njej 稍 糊 [4] BA BEY 
14 浅 白 FP We i Pel 稍 糊 eI BA 便 滑 
15 乌黑 AY ees yh Hn] 清晰 AB] ERAR 
16 RA BEA yh nja 模糊 平坦 便 请 
17 青绿 WEHE were 稍 糊 FAM! 便 清 


然后 , 我 们 要 计算 出 当前 属性 集合 { 色 泽 , 根 带 , me, 纹理 , 脐 部 , 触感 } 
中 每 个 属性 的 信息 增益 . 以 属性 “色泽 ”为 例 , 它 有 3 个 可 能 的 取 值 : {青绿 , 乌 
黑 , 浅 白 }. 车 使 用 该 属性 对 D 进行 划分 , 则 可 得 到 3 个 子 集 , 分 别 记 为 : D1 ( 色 
泽 = 青 绿 ), D? (色泽 = |S), D (色泽 = 浅 白 ). 

TÆ D1 包含 编号 为 {1, 4, 6, 10, 13, 17} 的 6 个 样 例 , 其 中 正 例 占 pi = 8, 
反例 占 pz = 2; D 包含 编号 为 {2, 3, 7, 8, 9, 15} 的 6 个 样 例 , 其 中 正 、 反 例 分 
别 占 pl = 2, po = 2; D3 包含 编号 为 {5, 11, 12, 14, 16} 的 5 个 样 例 , 其 中 正 、 
反例 分 别 占 pi = 4, pa = 4. 根据 式 (4.1) 可 计算 出 用 “色泽 ”划分 之 后 所 获得 


5* 


Wy 3 hop 5248 Aa SA 


3 3 3 3 | 
Ent(D') = — (3 logs g + 6 1082 >) = 1.000 , 
4 4 2 2 
Ent( D?) = — ($ logs 6t6 logs =) = 0.918 , 
1 1 4 4 
3、 f+ 1 4 t\ ge 
Ent(D°) = (3 logs 5 + F logs =) 0.722 , 


于 是 , 根据 式 (4.2) 可 计算 出 属性 “色泽 ”的 信息 增益 为 


4.2 划分 选择 TT 


3 v 
Gain(D, 色泽 ) = Ent(D) 一 >. Te Ent(D”) 
v=] 


6 6 5 
= 0.998 — @ x 1.000 + I7 x 0.918 + I7 x 0.722) 


= 0.109 . 


类 似 的 , 我 们 可 计算 出 其 他 属性 的 信息 增益 : 
Gain(D, t# #7) = 0.143; Gain(D, ÈN) = 0.141; 
Gain(D, 纹理 ) = 0.381; Gain(D, Bri) = 0.289; 
Gain(D, five) = 0.006. 
显然 , 属性 “纹理 ”的 信息 增益 最 大 , 于 是 它 被 选 为 划分 属性 . 图 4.3 给 出 
了 基于 “纹理 ”对 根 结 点 进行 划分 的 结果 , 各 分 文 结 皮 所 包含 的 样 例子 集 显 示 


FES RAP. 
uw ee 
清晰 -一 AY A 一 一 _ 模糊 
a Db > titi ee 
lL, 2,3, 4,5,0, 8, 10, 15 {7,9, 13, 14, 171) [f11, 12, 16} 


4.3 基于 “纹理 ”属性 对 根 结 点 划分 


然后 , 决策 树 学 习 算 法 将 对 每 个 分 支 结 点 做 进一步 划分 以 图 4.3 中 第 一 
个 分 文 结 点 (“ 纹 理 = 清 晰 ”) 为 例 , 该 结 点 包含 的 样 例 集合 D! 中 有 编号 为 {1， 
2, 3, 4, 5, 6, 8, 10, 15} 的 9 个 样 例 , 可 用 属性 集合 为 {色泽 , tar, 敲 声 , 脐 部 ， 

wpe fi}. 基于 D! 计算 出 各 属性 的 信息 增益 : 
Gain(D!, 色 泽 ) = 0.043; Gain(D', 根 带 ) = 0.458; 
Gain(D', i=) = 0.331; Gain( D1, WFE) = 0.458; 
Gain(D!, 触感) = 0.458. 
“ 根 蒂 ”、“ 脐 部 ”、“ 和 触感”3 个 属性 均 取 得 了 最 大 的 信息 增益 , 可 任 
选 其 中 之 一 作为 划分 属性 . 类 似 的 , 对 每 个 分 文 结 点 进行 上 述 操作 , 最 终 得 到 的 
决策 树 如 图 4.4 所 示 . 
4.2.2 tam 
在 上 面 的 介绍 中 , 我 们 有 意 忽略 了 表 4.1 中 的 “编号 ”这 一 列 . 若 把 “ 编 
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图 4.4 在 西瓜 数据 集 2.0 上 基于 信息 增益 生成 的 决策 树 


号 ”也 作为 一 个 候选 划分 属性 , 则 根据 式 (4.2) 可 计算 出 它 的 信息 增益 为 0.998， 
远大 于 其 他 候选 划分 属性 . 这 很 容易 理解 : “编号 ”将 产生 17 个 分 支 , 每 个 分 
支 结 点 仅 包含 一 个 样本 , 这 些 分 支 结 点 的 纯度 已 达 最 大 . 然而 , 这 样 的 决策 树 显 
然 不 具有 泛 化 能 力 , 无 法 对 新 样本 进行 有 效 预测 

实际 上 , 信息 增益 准则 对 可 取 值 数目 较 多 的 属性 有 所 偏好 , 为 减少 这 种 
偏好 可 能 带 来 的 不 利 影响 , 著名 的 C4.5 决策 树 算法 [Quinlan, 1993] 不 直接 使 
用 信息 增益 , 而 是 使 用 “增益 率 ”(gain ratio) 来 选择 最 优 划 分 属性 ， 采用 与 
式 (4.2) 相 同 的 符号 表示 , 增益 率 定义 为 


, , = Gain(D,a) 
Gain_ratio(D,a) = Wa)? (4.3) 
其 中 
~ IDI oe, P” 
IV(a) = — — lo 4.4 


称 为 属性 a 的 “国有 值 ”(intrinsic value) [Quinlan, 1993]. 属性 a 的 可 能 
取 值 数目 越 多 ( 即 V K), W IV(a) 的 值 通常 会 越 大 . 例如 , 对 表 4.1 的 西 
瓜 数据 集 2.0, 有 IV( 触 感 ) = 0.874 (V = 2), IV( 色 泽 ) = 1.580 (V = 3), 
IV( 编 号 ) = 4.088 (V = 17). 

需 注意 的 是 , 增益 率 准 则 对 可 取 值 数目 较 少 的 属性 有 所 偏好 , 因此 ，C4.5 
算法 并 不 是 直接 选择 增益 率 最 大 的 候选 划分 属性 , 而 是 使 用 了 一 个 启发 式 


4.3 Bye AREER 


CART Æ Classification 
and Regression Tree 的 向 
AR, 这 是 一 种 著名 的 决策 
树 学 习 算 法 , 分 类 和 回归 
任务 都 可 用 ， 


KAFitWs 4217. 
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(Quinlan, 1993]: 先 从 候选 划分 属性 中 找 出 信息 增益 高 于 平均 水 平 的 属性 , 再 从 
中 选择 增益 率 最 高 的 ， 
4.2.3 基尼 指数 

CART 决策 树 [Breiman et al., 1984] 使 用 “基尼 指数 ”(Gini index) 来 选 
择 划 分 属性 . 采用 与 式 (4.1) 相同 的 符号 , 数据 集 DD 的 纯度 可 用 基尼 值 来 度量 : 


Ra 


Gini(D) = >_ > Pkpk 


k=1k'¢k 
X| 


=1—S p}. (4.5) 
k=1 


直观 来 说 , Gini(D) 反映 了 从 数据 集 DD 中 随机 抽取 两 个 样本 , 其 类 别 标记 
不 一 致 的 概率 . 因此 , Gini(D) 越 小 , 则 数据 集 DD 的 纯度 越 高 . 
采用 与 式 (4.2) 相 同 的 符号 表示 , 属性 a 的 基尼 指数 定义 为 


V v 
Gini_index(D,a) = ` T Gini(D") . (4.6) 
v=1 


于 是 , 我 们 在 候选 属性 集合 4 中 , 选择 那个 使 得 划分 后 基尼 指数 最 小 的 属 
性 作为 最 优 划 分 属性 , EI ay = arg min Gini_index(D, a) l 
acA 


4.3 BIRARE 


剪 术 (pruning) 是 次 策 树 学 习 算 法 对 付 “ 过 拟 合 ”的 主要 手段 . 在 决策 树 学 
习 中 , 为 了 尽 可 能 正确 分 类 训练 样本 , 结 点 划分 过 程 将 不 断 重 复 , 有 时 会 造成 决 
策 树 分 文 过 多 , 这 时 就 可 能 因 训 练 样 本 学 得 “ 太 好 ”了 ,以致 于 把 训练 集 上 日 身 
的 一 些 特 点 当 作 所 有 数据 都 具有 的 一 般 性 质 而 导致 过 拟 合 . 因此 , 可 通过 主动 
去 掉 一 些 分 支 来 降低 过 拟 合 的 风险 . 

the He PY BY A WY BE AS Oe es AQ“ FUL BY HX” ~(prepruning) FA “ ja BFL” (post- 
pruning) (Quinlan, 1993]. MEJI ze Ta TE RRP AE EP, OY EP TE 
分 有 前 先进 行 估 计 , E SB AR A RU Sd AS Be i OR RY ze FEE SEAL, UU Se Ei) 
SSFP ST AS i A TE A Je BY AS EE AU ERRE YM ER EN EA 
然后 目 底 同上 地 对 非 叶 结 点 进行 考察 , AIAG OT DVN SRA SE 
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带 来 决策 树 泛 化 性 能 提升 , 则 将 该 子 树 替 换 为 叶 结 点 . 

如 何 判 断 决 策 树 泛 化 性 能 是 否 提 升 呢 ? 这 可 使 用 2.2 节 介 绍 的 性 能 评估 
方法 .本 节 假 定 采用 留 出 法 , 即 预 留 一 部 分 数据 用 作 “ 验 证 集 ” 以 进行 性 
能 评估 .例如 对 表 4.1 的 西瓜 数据 集 2.0, 我 们 将 其 随机 划分 为 两 部 分 ,如 
表 4.2 所 示 , 编号 为 {1,2,3,6,7,10,14,15,16,17} 的 样 例 组 成 训练 集 , 编号 为 
{4,5, 8,9, 11, 12, 13} 的 样 例 组 成 验证 集 . 


表 4.2 西瓜 数据 集 2.0 划分 出 的 训练 集 ( 双 线 上 部 ) 与 验证 集 ( 双 线 下 部 ) 


编号 色泽 根 带 rig FS 纹理 IT 触感 好 瓜 
1 青绿 EAA 浊 啊 清晰 [BS TEPE 是 
2 乌黑 Ein 沉 问 清晰 [LT] BES 便 滑 是 
3 乌黑 edin yek Hi 清晰 凹陷 便 滑 是 
6 青绿 FHE ye Hi 清晰 AR [EL] 软 粘 是 
7 乌黑 FF yeh WEJ FH Hi FAE] 软 粘 是 

10 青绿 MERE ia He 清晰 平坦 PRA 否 
14 RA FHE 沉 问 FHH 凹陷 AGA 否 
15 乌黑 FF ee yek m 清晰 稍 四 软 粘 否 
16 RA is Ais yek Fl 模糊 平坦 便 滑 否 
17 FÉK REAA 沉 闽 和 糊 FH PN heyy 否 

编号 色 洋 AS ir ra 纹理 脐 部 触感 好 瓜 
4 青绿 We Ari 沉 间 清晰 [4] BE hepa 是 
5 浅 白 WE yeka me 清晰 [u] pé heyy 是 
8 乌黑 Fe y me 清晰 ABT TEJ 是 
9 乌黑 FHI 沉 问 FA Hil ABT! TEJE 否 
11 浅 白 硬挺 清脆 模糊 平坦 硬 滑 否 
12 RA Wes Hej y ne 模糊 平坦 软 粘 否 
13 青绿 FHE Jei Hja] FR [u] pé ae 否 


假定 我 们 采用 4.2.1 节 的 信息 增益 准则 来 进行 划分 属性 选择 , 则 从 表 4.2 的 
训练 集 将 会 生成 一 棵 如 图 4.5 所 示 的 决策 树 ， 为 便于 讨论 , 我 们 对 图 中 的 部 分 
结 点 做 了 编号 . 

4.3.1 预 剪 枝 

我 们 先 讨 论 预 前 枝 . 基于 信息 增益 准则 , 我 们 会 选取 属性 “ 脐 部 ”来 对 训 
练 集 进 行 划分 , 并 产生 3 个 分 支 , 如 图 4.6 所 示 . 然而 , 是 否 应 该 进行 这 个 划分 
呢 ? 预 前 枝 要 对 划分 前 后 的 泛 化 性 能 进行 估计 . 

在 划分 之 前 , 所 有 样 例 集中 在 根 结 点 . 车 不 进行 划分 , 则 根据 图 4.2 算法 第 6 
行 , 该 结 点 将 被 标记 为 叶 结 点 , 其 类 别 标 记 为 训练 样 例 数 最 多 的 类 别 , 假设 我 们 
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青绿 -一 | RO fia pek aN 
pea pen ae 一 他 ee 
CEM CHEM CRD =?) CD Cem D 
a, . 2 
ae 
FEI CEND 
A AR 


4.5 基于 表 4.2 生 成 的 未 剪 枝 决策 树 


, 验证 集 精 度 
“R” 划分 前 : 42. 9% 
sq 划分 后 : 71. 4% 
一 平坦 ARR: 划分 
HEN 
| 验证 集 精 度 ~ 验证 集 精 度 
“色泽 =?” 划 分 前 : 71, 4% “AR ar=2” 划分 前 : 71. 4% 
划分 后 : 57. 1% 划分 后 : 71. 4% 
Fi BALA: BERS FR WFLA BR: 禁止 划分 


图 4.6 AFR 4.2 生 成 的 预 前 枝 决策 树 


wh eget 将 这 个 叶 结 点 标记 为 “好 瓜 ”. 用 表 4.2 的 验证 集 对 这 个 单 结 点 决策 树 进 行 评 
fii, 则 编号 为 {4,5,8} 的 样 例 被 分 类 正确 , 另外 4 个 样 例 分 类 错误 , 于 是 , 验证 
集 精 度 为 2 x 100% = 42.9%. 


在 用 属性 “ 脐 部 ”划分 之 后 , 图 4.6 中 的 结 点 加 、@@@、@ 分 别 包 合 编 
号 为 {1,2,3,14}. {6,7,15,17}. {10,16} 的 训练 样 例 , 因此 这 3 个 结 点 分 别 
被 标记 为 叶 结 点 “好 瓜 ”、“ 好 瓜 ”、“ 坏 瓜 ”. 此 时 , 验证 集中 编号 为 
{4,5, 8, 11, 12} 的 样 例 被 分 类 正确 , 验证 集 精 度 为 3 x 100% = 71.4% > 42.9%. 
于 是 , 用 “ 脐 部 ”进行 划分 得 以 确定 . 
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此 种 情形 下 验证 集 精 度 
唱 无 提高 ,但 根据 奥 卡 姆 
HAE, 藤 枝 后 的 模型 
更 好 . 因此 , 实际 的 决策 树 
算法 在 此 种 情形 下 通常 要 
HiT R. 本 书 为 绘图 的 
方便 , FIT RHA 
FRIG, 


第 4 章 决 R 树 


然后 , 决策 树 算法 应 该 对 结 点 @ 四 进行 划分 , 基于 信息 增益 准则 将 挑选 出 划 
分 属性 “色泽 ”. 然而 , 在 使 用 “色泽 ”划分 后 , 编号 为 {5} 的 验证 集 样 本 分 类 
结果 会 由 正确 转 为 错误 , 使 得 验证 集 精 度 下 降 为 57.1%. 于 是 , HBT ACTH EES 
LEZ AQ) PERU. 


对 结 点 @), 最 优 划分 属性 为 “ 根 蒂 ”, 划分 后 验证 集 精度 仍 为 71.4%. 这 个 
划分 不 能 提升 验证 集 精度 , 于 是 , 预 剪 枝 策略 禁止 结 点 @) 被 划分 . 


HERD, 其 所 含 训 练 样 例 已 属于 同一 类 , 不 再 进行 划分 . 

于 是 , BET PUES AR ERE 4.2 数据 所 生成 的 决策 树 如 图 4.6 所 示 , 其 验证 
集 精度 为 71.4%. 这 是 一 棵 仅 有 一 层 划 分 的 决策 树 , IER “PRR BE” (decision 
stump). 

对 比 图 4.6 和 图 4.5 可 看 出 , 预 剪 校 使 得 决策 树 的 很 多 分 文 都 没有 “ 展 
开 ”, 这 不 仅 降 低 了 过 拟 合 的 风险 , 还 显著 减少 了 决策 树 的 训练 时 间 开 销 和 测 
试 时 间 开 销 . 但 男 一 方面 , 有 些 分 文 的 当前 划分 虽 不 能 提升 泛 化 性 能 、 甚 至 可 
能 导致 泛 化 性 能 暂时 下 降 , 但 在 其 基础 上 进行 的 后 续 划分 却 有 可 能 导致 性 能 显 
著 提高 ; 预 剪 枝 基于 “贪心 ”本 质 禁 止 这 些 分 支 展开 , 给 预 剪 枝 决策 树 带 来 了 
RAW EAI Rar. 


4.3.2 Freee 


JE BY #52 5 MAUI BRR AE IM RTE ER TRY, 例如 基于 表 4.2 的 数据 我 们 得 到 
如 图 4.5 所 示 的 决策 树 . 易 知 , 该 决策 树 的 验证 集 精 度 为 42.9%. 


后 前 枝 首先 考察 图 4.5 中 的 结 点 (的 . 若 将 其 领衔 的 分 支 竟 除 , 则 相当 于 
EO 替换 为 叶 结 点 . 替换 后 的 叶 结 点 包含 编号 为 {7,15} 的 训练 样本 , FE, 该 
叶 结 点 的 类 别 标记 为 “好 瓜 ”, 此 时 决策 树 的 验证 集 精度 提高 至 57.1%. 于 是 ， 
Ja BY RZ ER Oe re BYE, 如 图 4.7 所 示 . 

SR Ji Fe BSH LO), 若 将 其 领衔 的 子 树 替换 为 时 结 点 , 则 替换 后 的 叶 结 点 包 
含 编号 为 {6,7,15} 的 训练 样 例 , 时 结 点 类 别 标记 为 “好 瓜 ”, 此 时 决策 树 验 证 
集 精 度 仍 为 57.1%. 于 是 , 可 以 不 进行 前 枝 . 

对 结 点 @), 若 将 其 领衔 的 子 树 替换 为 叶 结 点 , 则 替换 后 的 叶 结 点 包含 编号 
为 {1,2,3,14} 的 训练 样 例 , 叶 结 点 标记 为 “好 瓜 ”. 此 时 决策 树 的 验证 集 精 度 
提高 至 71.4%. 于 是 , a BRT Oe cE BY RY. 

X45 AOA, AARAM WITA SR GO, 则 所 得 次 策 树 的 验证 集 
精度 分 别 为 71.4% 与 42.9%, 均 未 得 到 提高 . 于 是 它们 被 保留 . 
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a ee 一 一 平坦 
ie ae 
EM 根 蒂 =' 
-一 et See = eee 
E ; ae 国 一 
HD ER 验证 集 精 度 G 7 
yE 十 ` K j JTA 
: 勇 枝 后 : íl. AN 青绿 -一 ace F, NÄ 6 JE 4> = “a 验证 集 精度 
后 前 枝 决 策 ; BAK 一 一 ees 劳 枝 前 ，42. 9% 
TIR SS SS IAE: bY. 1% 
hi Ka WHR: YA 


图 4.7 ATA 4.2 生 成 的 后 前 枝 决 策 树 


最 终 , 基于 后 剪 枝 策 略 从 表 4.2 数据 所 生成 的 决策 树 如 图 4.7 Bras, 其 验证 
REN 71.4%. 

对 比 图 4.7 和 图 4.6 可 看 出 , Jae BY be Gee ey a aS EE PY i GR PRB T E 
多 的 分 支 . 一 般 情 形 下 , 后 前 枝 决 策 树 的 欠 拟 合 风 险 很 小 , 泛 化 性 能 往往 优 于 预 
前 枝 决策 树 . 但 后 前 枝 过 程 是 在 生成 完全 决策 树 之 后 进行 的 , 并 且 要 自 底 向 上 
地 对 树 中 的 所 有 非 叶 结 点 进行 逐一 考察 , 因此 其 训练 时 间 开 销 比 未 剪 校 决策 树 
FU FU BY ASL RIT AB EE KGS 


4.4 连续 与 缺失 值 


4.4.1 连续 值 处 理 

到 目前 为 止 我 们 仅 讨 论 了 基于 离散 属性 来 生成 决策 树 . 现实 学 习 任 务 中 常 
会 遇 到 连续 属性 , 有 必要 讨论 如 何在 决策 树 学 习 中 使 用 连续 属性 . 

由 于 连续 属性 的 可 取 值 数目 不 再 有 限 , 因此 , 不 能 直接 根据 连续 属性 的 可 
取 值 来 对 结 点 进行 划分 . 此 时 , 连续 属性 离散 化 技术 可 派 上 用 场 . 最 简单 的 策 
略 是 采用 二 分 法 (bi-partition) 对 连续 属性 进行 处 理 , 这 正 是 C4.5 决策 树 算法 中 
采用 的 机 制 (Quinlan, 1993}. 

给 定 样 本 集 D 和 连续 属性 a, 假定 a 在 D 上 出 现 了 nn 个 不 同 的 取 值 , 将 这 
些 值 从 小 到 大 进行 排序 , 记 为 fal, a2, ...,an1+. 基于 划分 点 七 可 将 万 分 为 子 集 
D; 和 Di, 其 中 D 包含 那些 在 属性 a 上 取 值 不 大 于 的 样本 , 而 DS 则 包含 
那些 在 属性 a 上 取 值 大 于 上 的 样本 . 显然 , 对 相 邻 的 属性 取 值 at 与 att! 来 说 , t 
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可 将 划分 点 设 为 该 属性 
在 训练 集中 出 现 的 不 大 
于 中 位 点 的 最 大 值 ， 从 而 
使 得 最 终 决 策 树 使 用 的 划 
分 点 都 在 训练 集中 出 现 过 
[Quinlan, 1993]. 
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在 区 间 [a*, a") 中 取 任 意 值 所 产生 的 划分 结果 相同 . 因此 , 对 连续 属性 a, 我 们 
可 考察 包含 n 一 1 个 元 素 的 候选 划分 点 集合 


¿+1 
Ty = {SAE 1 <ixn-1} , 


- (4.7) 


即 把 区 间 [at ai+1) 的 中 位 点 EE 作为 候选 划分 点 . 然后 , 我 们 就 可 像 离 散 
属性 值 一 样 来 考察 这 些 划 分 点 , 选取 最 优 的 划分 点 进行 样本 集合 的 划分 . 例如 ， 
可 对 式 (4.2) 稍 加 改造 : 


Gain( D,a) = max Gain(D,a,t) 
tETa 


pÀ 
So Piin(D), 


= max Ent(D)— 


tETa ee) 


其 中 Gain(D,a,t) 是 样本 集 D 基于 划分 点 t 二 分 后 的 信息 增益 . 于 是 , 我 们 就 


可 选择 使 Gain(D,a,t) 最 大 化 的 划分 点 . 
作为 一 个 例子 , 我 们 在 表 4.1 的 西瓜 数据 集 2.0 上 增加 两 个 连续 属性 “ 密 
RE” A “RHR” , 得 到 表 4.3 所 示 的 西瓜 数据 集 3.0. 下 面 我 们 用 这 个 数据 集 


表 4.3 西瓜 数据 集 3.0 


编号 EF $F WPF 纹理 ”及 部 ”触感 密度 ” 会 糖 率 好 瓜 
1 青绿 hese 浊 啊 清晰 CUMS EA 0.697 0.460 是 
2 Be hese Dio we 四 了 AEA 0.774 0.376 在 
3 乌黑 hese h 清晰 四 陷 E 0.634 0.264 是 
4 青 WA yo) 清晰 FIG We 0.608 0.318 是 
5 A s vig 清晰 PM AEA 0.556 0.215 证 
6 青 Ae hig 清晰 FKT KRE 0.403 0.237 是 
7 CBM Fie a FARM FGM EA 0.481 0.149 是 
8 Be Fike yh 清晰 FAP) fee 0.437 0.211 是 
9 乌黑 Fee i FAA 5e 便 滑 0.666 0.091 否 
10 青绿 fhe Fale 清晰 FEE SORE 0.243 0.267 否 
11 HA EE ie W PYH AE 0.245 0.057 否 
12 MA i hia ”模糊 ”平坦 AR 0.343 0.099 否 
13 青绿 FAM m FRR E CO 0.639 0.161 F 
14 HA Fike pis FAAA | OUR 1E 0.657 0.198 否 
15 乌黑 Fie yo 清晰 稍 凹 KÄR 0.360 0.370 否 
16 A f yh ”模糊 ”平坦 AEA 0.593 0.042 E 
17 青绿 hes ptr) PAA AA tE 0.719 0.103 A 
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对 属性 “密度 ”, 在 决策 树 学 习 开 始 时 , 根 结 点 包含 的 17 个 训练 
样本 在 该 属性 上 取 值 均 不 同 . 根据 式 (4.7), 该 属性 的 候选 划分 点 集合 
包含 16 个 候选 值 : Trepp = {0.244, 0.294, 0.351, 0.381, 0.420, 0.459, 0.518, 
0.574, 0.600, 0.621, 0.636, 0.648, 0.661, 0.681, 0.708, 0.746}. 由 式 (4.8) 可 计算 
出 属性 “密度 ”的 信息 增益 为 0.262, 对 应 于 划分 点 0.381. 

对 属性 “ 含 糖 率 ”, 其 候选 划分 点 集合 也 包含 16 个 候选 值 : Tope = 
{0.049, 0.074, 0.095, 0.101, 0.126, 0.155, 0.179, 0.204, 0.213, 0.226, 0.250, 0.265, 
0.292, 0.344, 0.373, 0.418}. 类 似 的 , 根据 式 (4.8) 可 计算 出 其 信息 增益 为 0.349， 
对 应 于 划分 点 0.126. 

再 由 4.2.1 节 可 知 , 表 4.3 的 数据 上 各 属性 的 信息 增益 为 

Gain(D, 色 泽 ) = 0.109;，Gain(D, 根 带 ) = 0.143; 
Gain( D, W=) = 0.141; Gain(D, 纹理 ) = 0.381; 
Gain(D, 脐 部 ) = 0.289;，Gain(D, 触 感 ) = 0.006; 
Gain(D, 密度 ) = 0.262; Gain(D, AP) = 0.349. 

TÆ, “纹理 ”被 选 作 根 结 点 划分 属性 , 此 后 结 点 划分 过 程 递归 进行 , 最 终 

生成 如 图 4.8 所 示 的 决策 树 . 


a = 
清晰 .一 R 


T E =< 0.381? 
af NB A NO 


4.8 在 西瓜 数据 集 3.0 上 基于 信息 增益 生成 的 决策 树 


例如 在 父 结 点 上 使 用 了 需 注意 的 是 , 与 离散 属性 不 同 , 若 当前 结 点 划分 属性 为 连续 属性 , 该 属性 还 


“oF F<0.381" , ees 


止 在 子 结 点 上 使 用 “ 密 ”可 作为 其 后 代 结 点 的 划分 属性 . 
Š <0.294” . 
4.4.2 缺失 值 处 理 
现实 任务 中 常会 遇 到 不 完整 样本 , 即 样本 的 某 些 属性 值 缺 失 . 例如 由 于 诊 
测 成 本 、 隐 私 保 护 等 因素 , 患者 的 医疗 数据 在 某 些 属性 上 的 取 值 (如 ATV 测试 
结果 ) 未 知 ; 尤其 是 在 属性 数目 较 多 的 情况 下 , 往往 会 有 大 量 样本 出 现 缺 失 值 . 
如 果 简 单 地 放弃 不 完整 样本 , 仅 使 用 无 缺失 值 的 样本 来 进行 和 学习, 显然 是 对 数 
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在 决策 树 学 习 开 始 阶段 ， 
根 嬉 点 中 各 样本 的 权重 初 
始 化 为 1. 
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据 信 息 极 大 的 浪费 . 例如 , 表 4.4 是 表 4.1 中 的 西瓜 数据 集 2.0 出 现 缺 失 值 的 版 
Æ, 如 果 放 弃 不 完整 样本 , 则 仅 有 编号 {4, 7, 14, 16} 的 4 个 样本 能 被 使 用 ， 显 
然 , 有 必要 考虑 利用 有 缺失 属性 值 的 训练 样 例 来 进行 学 习 . 


F 4.4 西瓜 数据 集 20a 
编号 色泽 HS ar pt Fa 纹理 Bree ffs Jess 


1 一 te Ari yk ne 清晰 [4] BE WEE 
2 乌黑 Wezi yT iÈ 清晰 [4] Be 一 

3 乌黑 REH — 清晰 四 陷 便 滑 
4 青绿 tes Ar 沉 问 清晰 凹陷 mE 
5 — Wes 45 yeh nej 清晰 4] BE TEYE 
6 青绿 FHR yeh njaj i MT 一 软 烽 
T 乌黑 FH es 浊 响 稍 糊 FA ERE 
8 乌黑 FH Wes yeh Hp 一 FAE 便 清 
9 乌黑 沉 问 稍 糊 FAE REY 
10 青绿 WERE 清脆 — 平坦 软 粘 


11 å BÉ 硬挺 清脆 模糊 平坦  - 


OOD OO DDD | A AD OAD AD A Ao a x 


12 浅 白 HEHA — ERAH aa ig | Le ial 
13 一 AY Wes 浊 响 FH [4] BE Hy 
14 A FP WE 沉 问 FAB 四 陷 Ape 
15 乌黑 FA We y nej 清晰 一 PAK 
16 浅 白 tes Ari yh Hey 模糊 平坦 Lit} 
17 青绿 一 ie hey 稍 糊 FAA Ae 


我 们 需 解 决 两 个 问题 : (1) 如 何在 属性 值 缺失 的 情况 下 进行 划分 属性 选择 ? 
(2) 给 定 划 分 属性 , 耕 样 本 在 该 属性 上 的 值 缺 失 , 如 何 对 样本 进行 划分 ? 


给 定 训练 集 D 和 属性 a, & DER D 中 在 属性 a 上 没有 缺失 值 的 样本 子 
R. 对 问题 (1), 显然 我 们 仅 可 根据 万 来 判断 属性 a 的 优 劣 . 假定 属性 a 有 V 个 
可 取 值 fal,a2,...,av]}, S D RR D PERTE a 上 取 值 为 ar 的 样本 子 集 , Dy 
表示 D 中 属于 第 kk 类 (k = 1,2,...,|y|) 的 样本 子 集 , 则 显然 有 万 = UM. Dr, 
万 = UY, DY. 假定 我 们 为 每 个 样本 x 赋予 一 个 权重 we, 并 定义 


2 me Wa 
=; (4.9) 
> ,ze Wa 
Deed; We 
Pe == (ll<k<|y|), (4.10) 
Deed We 
=~ 2 ,zc 万 。 We 


(l<v<V). (4.11) 


T — 
. 2 scp We 
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直观 地 看 , 对 属性 a, p 表示 无 缺失 值 样本 所 占 的 比例 , By 表示 无 缺失 值 样本 中 
第 大 类 所 占 的 比例 , o 则 表示 无 缺失 值 样本 中 在 属性 a 上 取 值 ao 的 样本 所 占 
的 比例 . 显然 , ST om = 1, OY = 1. 


TEREX, 我 们 可 将 信息 增益 的 计算 式 (4.2) 推 广 为 


Gain(D,a) = p x Gain(D,a) 
V 
= px |Ent(D)— fy Ent ( D” i (4.12) 
(Emt (5) -Dru mnt (6°) ) 


其 中 由 式 (4.1), 有 
J| 
Ent( D) = 一 ` Dk logs Dk . 
k=1 


对 问题 (2), 若 样本 z 在 划分 属性 a 上 的 取 值 已 知 , 则 将 x 划 入 与 其 取 值 对 
应 的 子 结 点 , 且 样 本 权 值 在 子 结 点 中 保持 为 wo. BREAN zw 在 划分 属性 a 上 的 取 
值 未 知 , 则 将 oc 同时 划 入 所 有 子 结 点 , 且 样 本 权 值 在 与 属性 值 a” 对 应 的 子 结 点 
中 调整 为 fo- We; 直观 地 看 , 这 就 是 让 同一 个 样本 以 不 同 的 概率 划 入 到 不 同 的 
子 结 点 中 去 . 

C4.5 算法 使 用 了 上 述 解 决 方案 [Quinlan, 1993]. 下 面 我 们 以 表 4.4 的 数据 
集 为 例 来 生成 一 棵 决策 树 . 

在 学 习 开 始 时 , 根 结 点 包含 样本 集 万 中 全 部 17 个 样 例 , 各 样 例 的 权 值 
均 为 1. 以 属性 “色泽 ”为 例 , 该 属性 上 无 缺失 值 的 样 例 子 集 DD 包含 编号 为 
{2,3,4,6,7,8,9,10,11,12,14,15, 16, 17} 的 14 个 样 例 . 显然 , D 的 信息 粒 为 

2 


Ent(D) = 一 >》 dx loge Pk 
k=1 


6 6 8 8 | 
— 一 一 | = — | -一 = * 
& 082 74 | 14 082 5) iis 


S D1, D 与 D3 分 别 表 示 在 属性 “色泽 ”上 取 值 为 “青绿 ”“ 乌 黑 ” 以 
及 “ 浅 白 ”的 样本 子 集 , 有 


z 2 2 2 2 


~ 4 4 2 2 
Ent(D?) = — ($ logs 6 十 6 logs =) = 0.918 , 
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本 0 0 4 4’ 
Ent(D*) = 一 (3 logs d + F logs 4) = 0.000 , 
因此 , 样本 子 集 D 上 属性 “色泽 ”的 信息 增益 为 


3 
Gain( 万 ,色泽 ) = Ent(D) — 》 f, Ent(D”) 


v=] 


4 6 4 
= 0.985 一 & x 1.000 + 1a x 0.918 + T3 x 0.000 ) 


— 0.306 . 
于 是 , 样本 集 D 上 属性 “色泽 ”的 信息 增益 为 
Gain(D, 色泽 ) = p x Gain( 万 ,色泽 ) = = x 0.306 = 0.252 . 


类 似 地 可 计算 出 所 有 属性 在 D 上 的 信息 增益 : 
Gain(D, 色 泽 ) = 0.252; Gain(D, +###%) = 0.171; 
Gain(D, mF?) = 0.145; Gain(D, 纹理 ) = 0.424; 
Gain(D, bras) = 0.289; Gain(D, 触感) = 0.006. 


“纹理 ”在 所 有 属性 中 取得 了 最 大 的 信息 增益 , 被 用 于 对 根 结 点 进行 划分 . 
划分 结果 是 使 编号 为 {1,2,3,4,5,6,15} 的 样本 进入 “纹理 = 清晰 ”分 支 , 编号 
为 {7,9, 13, 14, 17} 的 样本 进入 “纹理 = 稍 糊 ” 分 支 , 而 编号 为 {11, 12,16} 的 样 
本 进入 “纹理 = 模糊 ”分 广 , 且 样 本 在 各 子 结 点 中 的 权重 保持 为 1. 需 注 意 的 
是 , 编号 为 {8} 的 样本 在 属性 “纹理 ”上 出 现 了 缺失 值 , 因此 它 将 同时 进入 二 
个 分 支 中 , 但 权重 在 三 个 子 结 点 中 分 别 调整 为 了 、 总 和 号 . 编号 为 {10} 的 样 
本 有 类 似 划 分 结果 . 


上 述 结 点 划分 过 程 递归 执行 , 最 终生 成 的 决策 树 如 图 4.9 Bras. 


4.5 多 变量 决策 树 


硅 我 们 把 每 个 属性 视 为 坐标 空间 中 的 一 个 坐标 轴 , Sd 个 属性 摘 述 的 样本 
就 对 应 了 d 维 空间 中 的 一 个 数据 点 , 对 样本 分 类 则 意味 着 在 这 个 坐标 空间 中 寻 
找 不 同类 样本 之 间 的 分 类 边界 . 决策 树 所 形成 的 分 类 边界 有 一 个 明显 的 特点 : 
轴 平 行 (axis-parallel), 即 它 的 分 类 边界 由 者 干 个 与 坐标 轴 平 行 的 分 段 组 成 . 


A 


ae m |i x = JANG, ka “ aR HE i BE Ra 
ED D DER ED (Gk? © So GS GD CD 
oer aur St TE | 乌黑 NRA 
saat NAA 
BED CHIE 
图 4.9 在 西瓜 数据 集 2.0a 上 基于 信息 增益 生成 的 决策 树 


以 表 4.5 中 的 西瓜 数据 3.0a 为 例 , 将 它 作 为 训练 集 可 学 
策 树 , 这 棵 树 所 对 应 的 分 类 边界 如 图 4.11 所 示 . 


得 图 4.10 所 示 的 决 


西瓜 数据 集 3.00 是 由 # 4.5 西瓜 数据 集 3.0a 


表 4.3 的 西瓜 数据 集 3.0 起 


略 - 离 散 属 性 而 得 ， 编号 密度 舍 糖 率 FJA 
1 0.697 0.460 是 
2 0.774 0.376 是 
3 0.634 0.264 是 
4 0.608 0.318 是 
5 0.556 0.215 是 
6 0.403 0.237 是 
7 0.481 0.149 是 
8 0.437 0.211 是 
9 0.666 0.091 百 
10 0.243 0.267 否 
11 0.245 0.057 a 
12 0.343 0.099 ci 
13 0.639 0.161 百 
14 0.657 0.198 a 
15 0.360 0.370 否 
16 0.593 0.042 i 
17 0.719 0.103 a 


显然 , 分 类 边界 的 每 一 段 部 是 与 坐标 轴 平 行 的 . 
结果 有 较 好 的 可 解释 性 , 因为 每 一 


这 样 的 分 类 边界 使 得 学 习 


段 划分 都 直接 对 应 了 某 个 属性 取 值 . 但 在 学 


习 任 务 的 真实 分 类 边界 比较 复杂 时 , 必须 使 用 很 多 段 划 分 才能 获得 较 好 的 近似 ， 
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A “BOR FBT” (oblique 


decision tree). 


0 0. 2 0 


.4 


4.11 图 4.10 决策 树 对 应 的 分 类 边界 


如 图 4.12 Bras; 此 时 的 决策 树 会 相当 复杂 , 由 于 要 进行 大 量 的 属性 测试 , 预测 
时 则 开销 会 很 大 . 

若 能 使 用 斜 的 划分 边界 , 如 图 4.12 中 红色 线段 所 示 , 则 决策 树 模 型 将 大 为 
简化 ，“ 多 变量 决策 树 ”(multivariate decision tree) 就 是 能 实现 这 样 的 “ 斜 划 
分 ”甚至 更 复杂 划分 的 决策 树 . 以 实现 冬 划 分 的 多 变量 决策 树 为 例 , 在 此 类 决 
策 树 中 , 非 叶 绪 点 不 再 是 仅 对 某 个 属性 , 而 是 对 属性 的 线性 组 合 进 行 测 试 ; 换 言 
之 , 每 个 非 叶 结 点 是 一 个 形 如 一) wa = t 的 线性 分 类 器 , 其 中 w 是 属性 a; 
的 权重 , wi 和 上 可 在 该 结 点 所 含 的 样本 集 和 属性 集 上 学 得 . 于 是 , 与 传统 的 “ 单 
变量 决策 树 ”(univariate decision tree) 不 同 , 在 多 变量 次 策 树 的 学 习 过 程 中 ， 
不 是 为 每 个 非 叶 绪 点 寻找 一 个 最 优 划 分 属性 , 而 是 试图 建立 一 个 合适 的 线性 分 


4.12 决策 树 对 复杂 分 类 边界 的 分 段 近 似 


线性 分 类 器 参见 第 3 章 ， 类 器 . 例如 对 西瓜 数据 3.00, 我 们 可 学 得 图 4.13 这 样 的 多 变量 决策 树 , 其 分 类 
边界 如 图 4.14 所 示 . 


图 4.14 图 4.13 多 变量 决策 树 对 应 的 分 类 边界 
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本 质 上 ,各 种 特征 选择 
方法 均 可 用 于 决策 树 的 划 
见 第 11 章 . 


关于 感知 机 和 神经 网 络 ， 
参见 第 5 章 ， 


4.6 阅读 材料 


决策 树 学 习 算 法 最 著名 的 代表 是 ID3 [Quinlan, 1979, 1986]、C4.5 [Quin- 
lan, 1993] 和 CART [Breiman et al., 1984]. [Murthy, 1998] 提供 了 一 个 关于 雇 
策 树 文献 的 阅读 指南 . C4.5Rule 是 一 个 将 C4.5 决策 树 转 化 为 符号 规则 的 算法 
[Quinlan, 1993], 决策 树 的 每 个 分 文 可 以 容易 地 重 写 为 一 条 规则 , 但 C4.5Rule 
算法 在 转化 过 程 中 会 进行 规则 前 件 合并 、 删 减 等 操作 , 因此 最 终 规则 集 的 泛 化 
性 能 甚至 可 能 优 于 原 决 策 树 . 

在 信息 增益 、 增 益 率 、 基 尼 指 数 之 外 ,， 人们 还 设计 了 许多 其 他 的 准则 用 
于 决策 树 划 分 选择 , 然而 有 实验 研究 表明 [Mingers, 1989b], 这 些 准则 虽然 对 
决策 树 的 尺寸 有 较 大 影 啊 , 但 对 汉化 性 能 的 影响 很 有 限 . [Raileanu and Stoffel, 
2004] 对 信息 增益 和 基尼 指数 进行 的 理论 分 析 也 显示 出 , 它们 仅 在 2% 的 情况 下 
会 有 所 不 同 . 4.3 节 介 绍 了 诀 策 树 剪 校 的 基本 策略 ; 剪 术 方法 和 程度 对 决策 树 谤 
化 性 能 的 影响 相当 显 着 , 有 实验 研究 表明 [Mingers, 1989a], 在 数据 带 有 噪声 时 
AB IBY CE E RG RY Ez OE BBE r 25%. 

多 变量 决策 树 算法 主要 有 OC1 [Murthy et al., 1994] 和 [Brodley and Ut- 
goff, 1995] 提出 的 一 系列 算法 . OC1 先 贫 心地 寻找 每 个 属性 的 最 优 权 值 , 在 局 
部 优化 的 基础 上 再 对 分 其 边界 进行 随机 扰动 以 试图 找到 更 好 的 边界 ; [Brodley 
and Utgoff, 1995] 则 直接 引入 了 线性 分 类 器 学 习 的 最 小 二 乘法 . 还 有 一 些 算法 
试图 在 决策 树 的 叶 结 点 上 峰 入 神经 网 络 , 以 结合 这 两 种 学 习 机 制 的 优势 , 例如 
“感知 机 树 ”(Perceptron tree) [Utgoff, 1989b| 在 决策 树 的 每 个 叶 结 点 上 训练 
一 个 感知 机 , 而 [Guo and Gelfand, 1992] 则 直接 在 叶 结 点 上 髓 入 多 层 神 经 网 络 . 

有 一 些 决 绩 树 学 习 算 法 可 进行 “ 增 量 学 习 ”(incremental learning)， 即 在 
接收 到 新 样本 后 可 对 已 学 得 的 模型 进行 调整 , 而 不 用 完全 重新 学 习 . 主要 机 
制 是 通过 调整 分 文 路 径 上 的 划分 属性 次 序 来 对 树 进行 部 分 重 构 , 代表 性 算法 
有 ID4 [Schlimmer and Fisher, 1986]. ID5R [Utgoff, 1989a]. ITI [Utgoff et al., 
1997] 等 . 增 量 学 习 可 有 效 地 降低 每 次 接收 到 新 样本 后 的 训练 时 间 开 销 , 但 多 步 
增 量 学 习 后 的 模型 会 与 基于 全 部 数据 训练 而 得 的 模型 有 较 大 差别 . 


习题 


习题 


4.5 


UCI 数据 集 见 
http: / /archive.ics.uci.edu/ml/. 4.6 


统计 显著 性 检验 参见 
247. 


A.7 


4.8* 


4.9 


4.10 


西瓜 数据 集 3.0 见 p.84 
的 # 4.3. 
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ia UE BA AY PAN E PE BE a (BW FF IE H E Sd E A EE ts vd ZS E) A UI R 
R, 必 存 在 与 训练 集 一 致 ( 即 训练 误差 为 0) 的 决策 树 . 


试 析 使 用 “最 小 训练 误差 ”作为 决策 树 划 分 选择 准则 的 缺陷 . 


试 编程 实现 基于 信息 业 进 行 划 分 选择 的 决策 树 算 法 , 并 为 表 4.3 中 数 
据 生 成 一 标 决 俩 树 . 


试 编程 实现 基于 基尼 指数 进行 划分 选择 的 决策 树 算 法 , 为 表 4.2 中 数 
AE PATHE AL. BJERRE, FPS ASB BC RAE AT EE. 


斌 编程 实现 基于 对 率 回 归 进 行 划 分 选择 的 决策 树 算 法 , 并 为 表 4.3 中 
数据 生成 一 棵 决策 树 . 


试 选择 4 个 UCI 数据 集 , 对 上 述 3 种 算法 所 产生 的 未 剪 枝 、 预 剪 枝 、 
Jer BY 452 GR RY ALE FT SE ie EER, 并 进行 适当 的 统计 显 背 性 检验 . 


图 4.2 是 一 个 递归 算法 , 看 面临 巨 量 数据 , 则 决策 树 的 层 数 会 很 深 , 使 
用 递归 方法 易 导 致 “ 栈 ” 沪 出 . 试 使 用 “队列 ”数据 结构 ， 以 参数 
Maz Depth 控制 树 的 最 大 深度 , 与 出 与 图 4.2 等 价 、 但 不 使 用 递归 的 


试 将 决策 树 生 成 的 深度 优先 搜索 过 程 修 改 为 三 捍 优 先 搜索 , 以 参数 
MaxNode 控制 树 的 最 大 结 点 数 , 将 题 4.7 中 基于 队列 的 决策 树 算法 
进行 改写 . 对 比 题 4.7 中 的 算法 , 试 析 哪 种 方式 更 易于 控制 决策 树 所 
需 存 储 不 超出 内 存 . 


试 将 4.4.2 节 对 缺失 值 的 处 理 机 制 推广 到 基尼 指数 的 计算 中 去 . 


从 网 上 下 载 或 自己 编程 实现 任意 一 种 多 变量 决策 树 算法 , 并 观察 其 在 
西瓜 数据 集 3.0 上 产生 的 结果 . 
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小 故事 : 决策 树 与 罗斯 。 昆 兰 
说 起 决策 树 学 习 , 就 必然 要 谈 到 澳大利亚 计算 机 科学 家 
罗斯 。 昆 兰 (J. Ross Quinlan, 1943— ). 
最 初 的 决策 树 算法 是 心理 学 家 兼 计 算 机 科学 家 E. B. 
Hunt 1962 年 在 研究 人 类 的 概念 学 习 过 程 时 提出 的 CLS 
(Concept Learning System), 这 个 算法 确立 了 决策 树 “ 分 而 
治之 ”的 学 习 策 略 . 罗斯 . 昆 兰 在 Hunt 的 指导 下 于 1968 年 在 美国 华盛顿 大 学 
获得 计算 机 博士 学 位 , 然后 到 悉尼 大 学 任教 . 1978 年 他 在 学 术 假 时 到 斯 坦 福 大 
学 访问 , 选修 了 图 灵 的 助手 D. Michie 开设 的 一 门 研究 生 课 程 . 课 上 有 一 个 大 
作业 , 要 求 写 程序 来 学 习 出 完备 正确 的 规则 ， 以 判断 国际 象棋 残局 中 一 方 是 否 
会 在 两 步 棋 后 被 将 死 . 昆 兰 写 了 一 个 类 似 于 CLS 的 程序 来 完成 作业 , 其 中 最 重 
要 的 改进 是 引入 了 信息 增益 准则 . 后 来 他 把 这 个 工作 整理 出 来 在 1979 年 发 表 ， 
这 就 是 ID3 算法 . 
1986 年 Machine Learning 杂志 创刊 , 昆 兰 应 邀 在 创刊 号 上 重新 发 表 了 ID3 
算法 , 掀起 了 决策 树 研 究 的 热潮 . 短 短 几 年 间 众 多 决策 树 算 法 问世 , ID4、ID5 
等 名 字 迅 速 被 其 他 研究 者 提出 的 算法 占用 , 昆 兰 只 好 将 自己 的 ID3 后 继 算 法 命 
Ne A Classifier 4.0 的 ”名 为 C4.0, 在 此 基础 上 进一步 提出 了 著名 的 C4.5. 有 趣 的 是 , 昆 兰 自称 C4.5 仅 
| 是 对 C4.0 做 了 些小 改进 , 因此 将 它 命 名 为 “第 4.5 代 分 类 器 ”, 而 将 后 续 的 商 


C4.5 在 WEKA 中 的 实 > 
LARA J4.8. 业 化 版 本 称 为 C5.0. 


本 书 所 谈 的 是 “人工 神 
经 网 络 ”,， 不 是 生物 学 意 
义 上 的 神经 网 络 . 


这 是 T. Kohonen 1988 
年 在 Neural Networks 创刊 
号 上 给 出 的 定义 . 


neuron 亦 称 unit. 


亦 称 bias. 注意 不 是 
“m4” , BASS 44 
RAW “WM”. 


=z. 


Som 神经 网 络 


5.1 神经 元 模型 


神经 网 络 (neural networks) 方面 的 研究 很 早 就 已 出 现 , 今天 “神经 网 络 ” 
己 是 一 个 相当 大 的 、 多 和 尝 科 交叉 的 学科 领域 . 各 相关 和 学科 对 神经 网 络 的 定义 多 
种 多 样 , 本 书 采用 目前 使 用 得 最 广泛 的 一 种 , 即 “ 神 经 网 络 是 由 具有 适应 性 的 
简单 单元 组 成 的 广泛 并 行 互 连 的 网 络 , 它 的 组 织 能 够 模拟 生物 神经 系统 对 真实 
世界 物体 所 作出 的 交互 反应 ” [Kohonen, 1988]. 我 们 在 机 器 学 习 中 谈论 神经 网 
络 时 指 的 是 “神经 网 络 学 习 ”, 或 者 说 , 是 机 器 学 习 与 神经 网 络 这 两 个 学 科 领 
域 的 交叉 部 分 . 

神经 网 络 中 最 基本 的 成 分 是 神经 元 (neuron) 模 型 , 即 上 述 定 义 中 的 “简单 
单元 ”. 在 生物 神经 网 络 中 , 每 个 神经 元 与 其 他 神经 元 相连 , 当 它 “兴奋 ”时 ， 
就 会 回 相 连 的 神经 元 发 送 化 学 物质 , 从 而 改变 这 些 神 经 元 内 的 电位 ; 如 果 某 神 
经 元 的 电位 超过 了 一 个 “ 闪 值 ”(threshold), 那么 它 就 会 被 激活 , BY “Me” 
起 来 , 向 其 他 神经 元 发 送 化 学 物质 . 

1943 年 , [McCulloch and Pitts, 1943] 将 上 述 情形 抽象 为 图 5.1 所 示 的 简单 
模型 , 这 就 是 一 直 沿 用 至 今 的 “M-P 神经 元 模型 ”. 在 这 个 模型 中 , 神经 元 接 
KERKE nr 个 其 他 神经 元 传递 过 来 的 输入 信号 , 这 些 输 入 信号 通过 带 权 重 的 连 
接 (connection) 进 行 传递 , 神经 元 接收 到 的 总 输入 值 将 与 神经 元 的 国 值 进行 比 


-> 来 自 第 i 个 神 ‘ih 当前 神经 元 


经 元 的 输入 n 
! | fies 
Tot wy iii 
7 : E y 
i WW; ! 

Ti —— TS Ne 

w ; 
" \ 
Tn 一 \、 第 i 个 神经 元 \ 

的 连接 权重 “> BE 


图 5.1 M-P 神经 元 模型 
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亦 称 “响应 函数 ”. 


这 里 的 阶 跃 函数 是 单位 
阶 跃 沁 数 的 变 体 ; 对 数 几 
$ FF) HN) FE Sigmoid 函数 
的 典型 代表 . KIL 3.3 F. 


“模拟 生物 神经 网 络 ” 
是 认 知 科学 家 对 神经 网 络 
所 做 的 一 个 类 比 阐 释 . 


例如 10 个 神经 元 两 两 
连接 , 则 有 100 个 参数 : 90 
个 连接 权 和 10 AEE. 


第 5 章 神经 网 络 


较 , 然后 通过 “激活 函数 ”(activation function) 处 理 以 产生 神经 元 的 输出 . 

理想 中 的 激活 函数 是 图 5.2(a) 所 示 的 阶 路 函数, 它 将 输入 值 映 射 为 输出 
值 “0” 或 “1”, 显然 “1” 对 应 于 神经 元 兴奋 ，“0” 对 应 于 神经 元 抑制 . 然 
m, 阶 路 函数 具有 不 连续 、 不 光滑 等 不 太 好 的 性 质 , 因此 实际 常用 Sigmoid 
函数 作为 激活 函数 . 典型 的 Sigmoid 函数 如 图 5.2(b) Pras, 它 把 可 能 在 较 大 
范围 内 变化 的 输入 值 挤 压 到 (0,1) 输出 值 范 围 内 , 因此 有 时 也 称 为 “ 挤 压 函 
数 ”(squashing function). 


sen( x) sigmoid(2) 


-1.0 -05 0 05 10 £ 


1L z220 l _ 1 
sgn(xr) = $ eg sigmoid(x) = ee 
(a) PIA ch ak (b) Sigmoid 函数 


5.2 HW 6942 LBS RK 


把 许多 个 这 样 的 神经 元 按 一 定 的 层次 结构 连接 起 来 , 就 得 到 了 神经 网 络 . 

事实 上 , 从 计算 机 科学 的 角度 看 , 我 们 可 以 先 不 考虑 神经 网 络 是 否 真 的 模 
拟 了 生物 神经 网 络 , 只 需 将 一 个 神经 网 络 视 为 包含 了 许多 参数 的 数学 模型 , 这 
个 模型 是 若干 个 函数 , 例如 y; = f (SE, wiri — 9;) 相互 ( 嵌 套 ) 代 入 而 得 . 有 效 的 
神经 网 络 学 习 算 法 大 多 以 数学 证 明 为 支撑 


5.2 感知 机 与 多 层 网 络 


感知 机 (Perceptron) 由 两 层 神 经 元 组 成 , 如 图 5.3 所 示 , 输入 层 接收 外 
界 输入 信号 后 传递 给 输出 层 , 输出 层 是 M-P 神经 元 , DR BK “ Be (ae y 
元 ”(threshold logic unit). 

感知 机 能 容易 地 实现 逻辑 与 、 或 、 非 运算 . 注意 到 yw = fC; wizi — 0), 假 
E f 是 图 5.2 中 的 阶 跃 函 数 , 有 


“与 ” (z1 ^ Tə): S w = w2 = 1, 0 = 2, M] y = f(1 -zı +1- x2 -— 2), X 


5.2 ”感知 机 与 多 层 网 络 


入 神经 元 的 分 量 . 


7 通常 设置 为 一 个 小 正 
$t, 例如 0.1. 


“ 非 线 性 可 分 ”意味 着 
用 线性 超 平面 无 法 划分 . 
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输出 层 
wa 
C) 输入 层 
LY LI 


图 5.3 两 个 输入 神经 元 的 感知 机 网 络 结构 示意 图 


Œ zı = 22 = 1 Ff, y = 1; 


e “BM” (zi V xe): Sw, = we = 1,0=0.5, Wy = f(l-41+1- 22 —0.5), 
当 zl 一 1 或 ae 一 1 时 ,7 一 1; 


e ee (2): 令 wy = —0.6, wo = 0, = —0.5, mi y = f(—0.6 ‘21 +0. 
z2 + 0.5), 3 z1 = 1 Hf, y = 0; Sx, = 0 f, y= 1. 


更 一 般 地 , 给 定 训 练 数据 集 , 权重 wi (i= 1,2,...,n) DR 0 可 通过 学 

习 得 到 . BE 0 可 看 作 一 个 固定 输入 为 -1.0 H “WMR” (dummy node) 所 对 

应 的 连接 权重 wi, 这 样 , 权重 和 装 值 的 学 习 就 可 统一 为 权重 的 学 习 . 感知 机 

“FJ SW SE ae fay AL, 对 训练 样 例 (x,y), 硅 当 前 感知 机 的 输出 为 则 感知 机 权 
HERG IEE id FEE: 

Wi <— Wi + Aw; , (5.1) 


Aw; = ny — 9x: ， (5.2) 


其 中 me (0,1) RAZY ZE (learning rate). 从 式 (5.1) WAH, 若 感知 机 对 训练 
样 例 (x,y) 预测 正确 , BD G = y, 则 感知 机 不 发 生变 化 , 否则 将 根据 错误 的 程度 
进行 权重 调整 . 

需 注 意 的 是 , 感知 机 只 有 输出 层 神 经 元 进行 激活 函数 处 理 , 即 只 拥有 一 层 
功能 神经 元 (functional neuron), 其 学 习 能 力 非 常 有 限 . 事实 上 , 上 述 与 、 或 、 
SE [a] AB A: Ee HE AY SP (linearly separable) 的 问题 . 可 以 证 明 [Minsky and Papert, 
1969], 看 两 类 模式 是 线性 可 分 的 , BU ECE TREE EE EMI AST, 如 图 
5.4(a)-(c) Pras, 则 感知 机 的 学 习 过 程 一 定 会 收敛 (converge) 而 求 得 适当 的 权 辐 
Ft w = (w1; Wo; ;Wn41); Fr RAUL St SWF SS KE te (fluctuation), w 
难以 稳定 下 来 , 不 能 求 得 合适 解 , 例如 感知 机 甚至 不 能 解决 如 图 5.4(d) 所 示 的 
异 或 这 样 简 单 的 非 线性 可 分 问题 . 
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T2 >, 划分 超 平面 ， 右 边 为 
i , EDA = M 


(0, 1) 


(0, 0) (1, 0) 
(a) “与 ”问题 (xy A £2) 


LY] 


_» 划分 超 平面 ， 右 边 为 
“为 “+ 


(cl “ 非 ” 问 题 (427) (d) “ 异 或 ”问题 【T1 B £2) 
图 5.4 线性 可 分 的 “与 ” “或 ”“ 非 ”问题 与 非 线性 可 分 的 “ 异 或 ”问题 


要 解决 非 线 性 可 分 问题 ,再 考虑 使 用 多 层 功能 神经 元 . 例如 图 5.5 中 这 个 
舍 单 的 两 层 感 知 机 束 能 解决 异 或 问题 . 在 图 5.5(a) 中 , 输出 层 与 输入 层 之 间 的 一 
层 神 经 元 , 被 称 为 隐 层 或 隐 含 层 (hidden layer),， 隐 含 层 和 输出 层 神经 元 都 是 拥 
有 激活 函数 的 功能 神经 元 . 

更 一 般 的 , 常见 的 神经 网 络 是 形 如 图 5.6 所 示 的 层级 结构 , 每 层 神经 元 与 下 
一 层 神 经 元 全 互 连 , 神经 元 之 间 不 存在 同 层 连接 , 也 不 存在 跨 层 连接 . 这 样 的 
神经 网 络 结构 通常 称 为 “多 层 前 馈 神 经 网 络 ”(multi-layer feedforward neural 


阅 值 0.5 a 
ef 


1 


ee t etta EEE. 


Nomeg gye 
(a) 网 络 结 构 (b) 分 类 区 域 


T 
Ly 1 


图 5.5 能 解决 异 或 问题 的 两 层 感 知 机 


5.3 ”误差 道 传播 算法 


“前 饼 j” 并 不 意味 着 网 
络 中 信号 不 能 向 后 传 , 而 
是 指 网络 拓 站 结构 上 不 存 
在 环 或 回路 ; 参见 5.5.5 节 . 


即 神 经 元 连接 的 权重 . 


亦 称 “ 反 向 传播 算法 ”. 


离散 属性 需 先 进行 处 理 : 
若 属性 值 间 存在 “ 序 ” 关 
系 则 可 进行 连续 化 ; 否则 
通常 转化 为 天 纵向 量 ,大 为 
属性 值 数 . 参见 3.2 77. 


101 


5.6 多 层 前 馈 神经 网 络 结构 示意 图 


networks), 其 中 输入 层 利 经 元 接收 外 界 输 入 , 隐 层 与 输出 层 神 经 元 对 信和 号 进行 
MI, 最 终结 果 由 输出 层 神 经 元 输出 ; 换言之 , 输入 层 神经 元 仅 是 接受 输入 , 不 
进行 图 数 处理 , 隐 层 与 输出 层 包 仿 功 能 神经 元 . 因此 , 图 5.6(a) HARIRI “A 
层 网 络 ”. 为 避免 歧义 , 本 书 称 其 为 “ 单 隐 层 网 络 ”. 只 需 包 含 隐 层 , 即 可 称 
为 多 层 网 络 . 神经 网 络 的 学 习 过 程 , 就 是 根据 训练 数据 来 调整 神经 元 之 间 的 
“连接 权 ”(connection weight) 以 及 每 个 功能 神经 元 的 国 值 ; 换言之 , 神经 网 
oy “Fe” BIN AR PY, 强 泣 在 连接 权 与 浆 值 中 . 


5.3 RAW BR 


多 层 网 络 的 学 习 能 力 比 单 层 感知 机 强 得 多 . 和 欲 训练 多 层 网 络 , 式 (5.1) 的 
简单 感知 机 学 习 规 则 显然 不 够 了 , 需要 更 强大 的 学 习 算 法 . 误差 逆 传播 (error 
BackPropagation, WAR BP) 算 法 束 是 其 中 最 杰出 的 代表 , 它 是 迄今 最 成 功 的 神 
经 网 络 学 习 算 法 . 现实 任务 中 使 用 神经 网 络 时 , 大 多 是 在 使 用 BP 算法 进行 训 
练 . 值得 指出 的 是 , BP 算法 不 仪 可 用 于 多 层 前 馈 神 经 网 络 , 还 可 用 于 其 他 类 型 
的 神经 网 络 , 例如 训练 递归 神经 网 络 [Pineda, 1987]. 但 通常 说 “BP 网 络 ” 时 ， 
一 般 是 指 用 BP 算法 训练 的 多 层 前 馈 神 经 网 络 . 

下 面 我 们 来 看 看 BP 算法 究竟 是 什么 样 . 给 定 训 练 集 D = {(x1,y1), 
(£2, Y2), ---, (Em, Ym) h}, xi € Rİ, y; € R!, 即 输入 示例 由 Qq& 个 属性 描述 , 输出 :7 
维 实 值 回 量 . 为 便于 讨论 , 图 5.7 给 出 了 一 个 拥有 d 个 输入 神经 元 、;! 个 输出 神 
经 元 、g 个 隐 层 神经 元 的 多 层 前 馈 网 络 结构 , 其 中 输出 层 第 1 个 神经 元 的 效 值 
用 9; 4205, 隐 层 第 hh 个 神经 元 的 国 值 用 wh 表示 . 和 输入 层 第 i 个 神经 元 与 隐 层 第 
h 个 神经 元 之 间 的 连接 权 为 vin, 隐 层 第 所 个 神经 元 与 输出 层 第 7 个 神经 元 之 间 
的 连接 权 为 whj. WREE h 个 神经 元 接收 到 的 输入 为 on = 21, vinzi, 输出 
JER j 个 神经 元 接收 到 的 输入 为 By = Shy Waban, 其 中 bn 为 隐 层 第 hh 个 神经 
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Tom 第 有 个 隐 层 神经 元 的 输入 
a 


“Ln = > Vihti 


i=l 


5.7 BP 网 络 及 算法 中 的 变量 符号 


KERALA A BAK, 参见 元 的 输出 . 假设 隐 层 和 输出 层 神 经 元 都 使 用 图 5.2(b) 中 的 Sigmoid 函数 . 


3.3 他。 
oF = f(B; — 0;) 3 (5.3) 
则 网 络 在 (Œk, Yk) 上 的 均 方 误差 为 
这 里 的 1/2 是 为 了 后 续 ic 
求 导 的 便利 . Ey = 5 Do — yk). (5.4) 


5.7 的 网 络 中 有 (gd 十 1 十 1)g 十! 个 参数 需 人 确定 : 输入 层 到 隐 层 的 dxg 
个 权 值 、 隐 层 到 输出 层 的 g x i 个 权 值 、g 个 隐 层 神经 元 的 效 值 、! 个 输出 层 神 
ATARE. BP 是 一 个 迭代 学 习 算 法 , 在 迭代 的 每 一 轮 中 采用 广义 的 感知 机 学 
习 规 则 对 参数 进行 更 新 估计 , 即 与 式 (5.1) 类 似 , 任意 参数 vv 的 更 新 估计 式 为 


UU 二 Av. (5:5) 


下 面 我 们 以 图 5.7 中 隐 层 到 输出 层 的 连接 权 wnj 为 例 来 进行 推导 . 
Wn EA BP 算法 基于 梯度 下 降 (gradient descent) 策 略 , 以 目标 的 负 梯 度 方向 对 参 
数 进行 调整 . 对 式 (5.4) 的 误差 Ey, 给 定 学 习 率 7m, 有 
OF. 
4 Whi l 


Awnj = (5.6) 


5.3 ”误差 逆 传 播 算法 103 


注意 到 wp; 先 影响 到 第 j 个 输出 层 神经 元 的 输入 值 8;, 再 影响 到 其 输出 值 GF, 


然后 影响 到 Ep, 有 
这 就 是 “ 链 式 法 则 ”. OF, OB, 3 AB; 


根据 B; 的 定义 , 显然 有 
元 二 = bp, . (5.8) 
图 5.2 中 的 Sigmoid 函数 有 一 个 很 好 的 性 质 : 
f(z) = f (x) (1 — f(z)) ， (5.9) 
于 是 根据 式 (5.4) 和 (5.3), 有 
Er O09 
= —(9F — yf) f'(8; — 0;) 
= 9; (1 — 95) (u; — 95) - (5.10) 


将 式 (5.10) 和 (5.8) 代 入 式 (5.7), 再 代入 式 (5.6), 就 得 到 了 BP 算法 中 关于 
Wh 的 更 新 公式 


Awnj = Ngjbh - (5.11) 
FMA FY FF 
Aé; = —7g; ， (5.12) 
Avin = NERTi ， (5.13) 
Ayn = NER ; (5.14) 
式 (5.13) 和 (5.14) 中 
, — OF. Obn 
Ob, Ban 
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' 
= > wnjgjf' (an — Yh) 
j=1 


[ 
= bn(l — bn) > Whjgj - (5.15) 


j=1 


FIJE n € (0,1) 控制 着 算法 每 一 轮 迭 代 中 的 更 新 步 长 , 若 太 大 则 容易 振 

i 荡 , 太 小 则 收敛 速度 又 会 过 慢 . 有 时 为 了 做 精细 调节 , 可 令 式 (5.11) 与 (5.12) 使 
FA m, 式 (5.13) 与 (5.14) 使 用 mo, 两 者 未 必 相 等 . 

图 5.8 给 出 了 BP 算法 的 工作 流程 . 对 每 个 训练 样 例 , BP 算法 执行 以 下 操 

HE: 先 将 输入 示例 提供 给 输入 层 神经 元 , 然后 逐 层 将 信号 前 传 , 直到 产生 输出 

层 的 结果 ; 然后 计算 输出 层 的 误差 (第 45 行 ), 再 将 误差 逆向 传播 至 隐 层 神经 

元 (第 6 行 ), 最 后 根据 隐 层 神经 元 的 误差 来 对 连接 权 和 阅 值 进行 调整 (第 7 行 ). 

该 迭代 过 程 循环 进行 , 直到 达到 某 些 停止 条 件 为 止 , 例如 训练 误差 已 达到 一 个 

meio PPS 很 小 的 值 . 图 5.9 给 出 了 在 2 个 属性 、5 个 样本 的 西瓜 数据 上 , 随 着 训练 轮 数 的 

增加 , 网 络 参数 和 分 类 边界 的 变化 情况 . 


输入 : 训练 集 D = {(xe, Yk) k; 
学 习 率 n. 
1: 在 (0,1) 范 围 内 随机 初始 化 网 络 中 所 有 连接 权 和 靖 值 
2: repeat 
3 for all (xk, Yk) E D do 
A: 根据 当前 参数 和 式 (5.3) 计算 当前 样本 的 输出 Oe; 
5: 根据 式 (5.10) 计算 输出 层 神经 元 的 梯度 项 g;; 
6 根据 式 (5.15) 计算 隐 层 神经 元 的 梯度 项 en; 
T 根据 式 (5.11)-(5.14) 更 新 连接 权 waj, vin WE 0j, Ya 
end for 


9: until 达到 停止 条 件 
输出 : 连接 权 与 较 值 确定 的 和 多 层 六 馈 神 经 网 络 


图 5.8 误差 谱 传 播 算法 


中 中 +4 ++ 


需 注意 的 是 , BP 算法 的 目标 是 要 最 小 化 训练 集 D 上 的 累积 误差 
1 | 
ae ee (5.16) 
mb 


但 我 们 上 面 介绍 的 “标准 BP 算法 ”每 次 仅 针 对 一 个 训练 样 例 更 新 连接 权 
AU BE, 也 就 是 说 , 图 5.8 中 算法 的 更 新 规则 是 基于 单个 的 Ex 推导 而 得 .如 


5.3 ”误差 道 传播 算法 


读 取 训练 集 一 遍 称 为 进 
行 了 “一 轮 ” (one round， 
亦 称 one epoch) 学 习 . 


标准 BP 算法 和 累积 BP 
算法 的 区 别 类 似 于 随机 梯 
度 下 降 (stochastic gradient 
descent, 简称 SGD) 与 标准 
梯度 下 降 之 间 的 区 别 . 


引入 正则 化 策略 的 神经 
网 络 与 第 6 章 的 SVM 已 
非常 相似. 
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图 5.9 在 2 个 属性 、5 个 样本 的 西瓜 数据 上 , BP 网 络 参数 更 新 和 分 类 边界 的 变化 情况 


果 类 似 地 推导 出 基于 累积 误差 最 小 化 的 更 新 规则 , 就 得 到 了 累积 误差 逆 传 
播 (accumulated error backpropagation) 算法 . BAR BP 算法 与 标准 BP 算法 都 
很 党 用 . 一般 来 说 , 标准 BP 算法 每 次 更 新 只 针对 单个 样 例 , 参数 更 新 得 非常 频 
28, I EX ERE EFT SBT A CR A] BEL “FRY” BLS. 因此 , 为 了 达到 同 
样 的 累积 误差 极 小 点 , 标准 BP RIRI PG RETT BS ELIE. 累积 BP 算法 
直接 针对 累积 误差 最 小 化 , 它 在 读 取 整个 训练 集 DD 一 授 后 才 对 参数 进行 更 新 ， 
其 参数 更 新 的 频率 低 得 多 . 但 在 很 多 任务 中 , 累积 误差 下 降 到 一 定 程度 之 后 , 进 
一 步 下 降 会 非常 缓慢 , 这 时 标准 BP 往往 会 更 快 获得 较 好 的 解 , 尤其 是 在 训练 
fe D 非常 大 时 更 明显 . 

[Hornik et al., 1989] 证 明 , 只 需 一 个 包含 足够 多 神 绎 元 的 隐 层 , SJR ATT 
络 就 能 以 任意 精度 逼近 任意 复杂 度 的 连续 函数 . 然而 , 如 何 设置 隐 层 神经 元 的 
个 数 仍 是 个 未 决 问题 , 实际 应 用 中 通常 千 “ 试 错 法 ”(trial-by-error) 调 整 . 

正 是 由 于 其 强大 的 表示 能 力 , BP 神经 网 络 经常 遭 遇 过 拟 合 , 其 训练 误差 持 
续 降 低 , 但 测试 误差 却 可 能 上 升 . 有 两 种 策略 第 用 来 缓解 BP 网 络 的 过 拟 合 . 第 
一 种 策略 是 “ 早 停 ”(early stopping): 将 数据 分 成 训练 集 和 验证 集 , 训练 集 用 
来 计算 梯度 、 更 新 连接 权 和 浆 值 , 验证 集 用 来 估计 误差 , 若 训 练 集 误差 降低 但 
验证 集 误差 升 高 , 则 停止 训练 , 同时 返回 具有 最 小 验证 集 误 差 的 连接 权 和 国 值 . 
第 二 种 策略 是 “正则 化 ”(regularization) [Barron, 1991; Girosi et al., 1995], 其 
基本 思想 是 在 误差 目标 函数 中 增加 一 个 用 于 搬 述 网 络 复杂 度 的 部 分 , 例如 连接 
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增加 连接 权 与 阅 值 平方 

和 这 一 项 后 , 训练 过 程 将 
会 偏好 比较 小 的 连接 权 
fo BAB, 使 网 络 输出 更 加 
“光滑 ”， 从 而 对 过 拟 合 
有 所 缓解 


这 里 的 讨论 对 其 他 机 器 
学 习 模 型 同样 适用 . 


感知 机 更 新 规则 式 (5.1) 
和 BP 更 新 规则 式 (5.11)- 
(5.14) 都 是 基于 梯度 下 降 ， 
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权 与 阅 值 的 平方 和 . 仍 令 Ey, 表示 第 上 个 训练 样 例 上 的 误差 , w 表示 连接 权 和 
BE, 则 误差 目标 函数 (5.16) 改变 为 


1 到 <2 | 
ETA oe ND ME (5.17) 


其 中 入 E (0,1) APO ARRA 2 AR ERASE TT DTA, Fe Ac Ne 
证 法 来 估计 . 


5.4 全 局 最 小 与 局 部 极 小 


HH E 表示 神经 网 络 在 训练 集 上 的 误差 , 则 它 显然 是 天 于 连接 权 w 和 国 
值 9 的 函数 . 此 时 , 神经 网 络 的 训练 过 程 可 看 作 一 个 参数 寻 优 过 程 , 即 在 参数 宇 
同 中 , 寻找 一 组 最 优 参 数 使 得 互 最 小 . 

我 们 常会 谈 到 两 种 “最 优 ”: “局 部 极 小 ”(local minimum) 和 “全 局 最 
小 ”(global minimum). 对 w* 和 0*, FTE e > 0 使 得 


V (w;0) € {(w;) | |(w;0) — (ws A")|| < €} , 


都 有 E(w;0) > E(w*;6*) RL, 则 (w*; 0%) 为 局 部 极 小 解 ; 若 对 参数 空间 中 的 
任意 (w; 0) 都 有 E(w; 0) > E(w*,0*), W (w*; 0*) 为 全 局 最 小 解 . 直观 地 看 , 局 
部 极 小 解 是 参数 空间 中 的 某 个 点 , 其 邻 域 点 的 误差 函数 值 均 不 小 于 该 点 的 函数 
值 ; 全 局 最 小 解 则 是 指 参 数 空间 中 所 有 点 的 误差 函数 值 均 不 小 于 该 点 的 误差 函 
数值 . 两 者 对 应 的 (ww*; 98*) 分 别称 为 误差 函数 的 局 部 极 小 值 和 全 局 最 小 值 . 

显然 , 参数 空间 内 梯度 为 零 的 点 , 只 要 其 误差 函数 值 小 于 邻 点 的 误差 范 数 
值 , 就 是 局 部 极 小 点 ; 可 能 存在 多 个 局 部 极 小 值 , 但 却 只 会 有 一 个 全 局 最 小 值 . 
也 就 是 说 , “全 局 最 小 ”一 定 是 “局 部 极 小 ”, 反之 则 不 成 并 . 例如 , 图 5.10 中 
有 两 个 局 部 极 小 , 但 只 有 其 中 之 一 是 全 局 最 小 . 显然 ,我 们 在 参数 寻 优 过 程 中 是 
希望 找到 全 局 最 小 . 

基于 梯度 的 搜索 是 使 用 最 为 广泛 的 参数 寻 优 方法 . 在 此 类 方法 中 , 我 们 从 
某 些 初始 解 出 发 , EARS RE RUA. FARER, 我 们 先 计 算 误差 函数 在 当 
前 点 的 梯度 , 然后 根据 梯度 确定 搜索 方向 . 例如 , 由 于 负 梯 度 方向 是 函数 值 下 降 
最 快 的 方向 , 因此 梯度 下 降 法 就 是 沿 着 负 梯 度 方向 搜索 最 优 解 . 若 误 差 函 数 在 
当前 点 的 梯度 为 零 , 则 已 达到 局 部 极 小 , 更 新 量 将 为 零 , 这 意味 着 参数 的 欠 代 更 
新 将 在 此 停止 . 显然 , 如 果 误 差 函 数 仅 有 一 个 局 部 极 小 , 那么 此 时 找到 的 局 部 极 
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图 5.10 全 局 最 小 与 局 部 极 小 


小 就 是 全 局 最 小 ; Ail, 如 果 误 差 函 数 具 有 多 个 局 部 极 小 , 则 不 能 保证 找到 的 解 
是 全 局 最 小 . 对 后 一 种 情形 , 我 们 称 参 数 寻 优 陷 入 了 局 部 极 小 , 这 显然 不 是 我 们 
所 希望 的 . 

在 现实 任务 中 , 人们 常 采 用 以 下 策略 来 试图 “跳出 ”局 部 极 小 ， 从 而 进 一 
步 接近 全 局 最 小 : 


e 以 多 组 不 同 参 数值 初始 化 多 个 神经 网 络 , 按 标 准 方法 训练 后 , MA PRA 
最 小 的 解 作 为 最 终 参 数 . 这 相当 于 从 多 个 不 同 的 初始 点 开始 搜索 , OPP 
可 能 陷入 不 同 的 局 部 极 小 , 从 中 进行 选择 有 可 能 获得 更 接近 全 局 最 小 的 
HIA. 


e {EH “MMEk” (simulated annealing) 技术 [Aarts and Korst, 1989]. 

模拟 退火 在 每 一 步 都 以 一 定 的 概率 接受 比 当 前 解 更 差 的 结果 , 从 而 有 助 

但 是 也 会 造成 “站 出 ? 于 “跳出 ”局 部 极 小 , 在 每 步 迁 代 过 程 中 , 接受 “次 优 解 ”的 概率 要 随 着 
时 间 的 推移 而 逐渐 降低 , 从 而 保证 算法 稳定 . 


o 使 用 随机 梯度 下 降 . 与 标准 梯度 下 降 法 精确 计算 梯度 不 同 , 随机 梯度 下 降 
法 在 计算 梯度 时 加 入 了 随机 因素 . 于 是 , 即便 陷入 局 部 极 小 点 , 它 计算 出 
HBB RES A] BEAR AI, 这 样 就 有 机 会 跳出 局 部 极 小 继续 搜索 . 


此 外 , 遗传 算法 (genetic algorithms) [Goldberg, 1989] 也 常用 来 训练 神经 网 
络 以 更 好 地 通 近 全 局 最 小 . 需 注 意 的 是 , 上 述 用 于 跳出 局 部 极 小 的 技术 大 多 是 
启发 式 , FHV EMRE REE. 
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理论 上 来 说 可 使 用 多 个 
隐 层 , 但 常见 的 RBF 设置 
PIR, 


模式 类 可 认为 是 某 类 别 
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5.5 其 他 常见 神经 网 络 


仲 经 网 络 模型 、 算 法 繁多 , 本 节 不 能 详尽 描述 , 只 对 特别 常见 的 几 种 网 络 
稍 作 简介 . 


5.5.1 RBF 网 络 


RBF(Radial Basis Function, 4 [5] 2& pk 2) ) 248 [Broomhead and Lowe, 
1988] #2 — FP AE Bet E A IRA, E EH 728 H aE RI AE A Ba a tH 8 A ERI 
2X, 而 输出 层 则 是 对 隐 层 和 神经 元 输出 的 线性 组 合 . 假定 输入 为 d 维 问 量 ac, 输出 
为 实 值 , 则 RBF 网 络 可 表示 为 


wlm) = > _ wiplz, Gi), (5.18) 
i=1 


其 中 9 为 隐 层 神经 元 个 数 , ci; 和 wy 分 别 是 第 i 个 隐 层 神经 元 所 对 应 的 中 心 和 权 
$, p(x, ci) ÆRE A BL, 这 是 茶 种 治 径 癌 对 称 的 标量 函数 , 通常 定义 为 样本 
a 到 数据 中 心 c; 之 间 欧 氏 距 离 的 单调 函数 . 常用 的 高 斯 径 同 基 函 数 形 如 


p(x, ci) = eBilz-eill . (5.19) 


[Park and Sandberg, 1991] WEH, 具有 是 够 多 隐 层 神经 元 的 RBF 网 络 能 以 任意 

通常 采用 岗 步 过 程 来 训练 RBF 网 络 : 第 一 步 , 确定 神经 元 中 心 ci 第 用 的 
方式 包括 随机 采样 、 聚 类 等 ; 第 二 步 , 利用 BP 算法 等 来 确定 参数 wi 和 Bi. 
5.5.2 ART 网 络 

aa Ft AY °F >] (competitive learning) 是 神经 网 络 中 一 种 第 用 的 无 监督 和 学习 
策略 , 在 使 用 该 策略 时 , 网 络 的 输出 神经 元 相互 竞争 , BEI AI A AeA E 
争 获 胜 的 神经 元 被 油 活 , 其 他 和 神经 元 的 状态 被 抑制 . PAL a IS AR“ WE aA 
HZ” (winner-take-all) J WI. 

ART(Adaptive Resonance Theory, 自 适 应 谐振 理论 ) 网 络 [Carpenter and 
Grossberg, 1987] 是 竞争 型 学 习 的 重要 代表 . 该 网 络 由 比较 屋 、 识 别 屋 、 识 别 
浆 什 和 重臣 模块 构成 . 其 中 , 比较 层 负责 接收 输入 样本 , 并 将 其 传递 给 识别 层 神 
经 元 . 识别 层 每 个 神经 元 对 应 一 个 模式 类 , 神经 元 数目 可 在 训练 过 程 中 动态 增 
长 以 增加 新 的 模式 类 . 

在 接收 到 比较 层 的 输入 信号 后 , 识别 层 神 经 元 之 间 相 互 欧 争 以 产生 获胜 神 


5.5 ”其 他 常见 神经 网 络 


这 就 是 “ 胜 者 通 吃 ” 原 
则 的 体现 ， 


增 量 学 习 是 指 在 学 得 模 
型 后 ， 骨 接收 到 训练 样 例 
时 ， 仅 需 根据 新 样 例 对 模 
型 进行 更 新 ， 不 必 重 新 训 
晨 整 个 模型 ,并且 先前 学 
得 的 有 效 信 息 不 会 被 “ 冲 
AR” | 在 线 学 习 是 指 每 获 
得 一 个 新 样本 就 进行 一 次 
模型 更 新 . 显然 , 在 线 学 习 
是 增 量 学 习 的 特例 ,而 增 
量 学 习 可 视 为 “ 批 模式 ” 
(batch-mode) 的 在 线 学 习 . 


At” (Self-Organizing Fea- 
ture Map). Kohonen F 2%. 
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经 元 . 竞争 的 最 简单 方式 是 , MA BST PS CT DY RN 
类 的 代表 问 量 之 同 的 距离 , 距离 最 小 者 胜 . 获胜 神经 元 将 癌 其 他 识别 层 神 经 元 
发 送信 号 , 抑制 其 油 活 . 奉 输 入 回 量 与 获胜 神经 元 所 对 应 的 代表 回 量 之 间 的 相 
BER TRIR, 则 当前 输入 样本 将 和 被 归 为 该 代表 问 量 所 属 类 别 , 同时 , 网 络 
连接 权 将 会 更 新 , 使 得 以 后 在 接收 到 相似 输入 样本 时 该 模式 类 会 计算 出 更 大 的 
FEILE, 从 而 使 该 获胜 神经 元 有 时 大 可 能 获胜 ; a FASE AN ATA ed fe, 则 重 
置 模块 将 在 识别 层 增 设 一 个 新 的 神经 元 , 其 代表 癌 量 就 设置 为 当前 输入 问 量 . 

显然 , 识别 净值 对 ARTI 网 络 的 性 能 有 重要 影响 . 当 识 别 国 值 较 高 时 , 输入 样 
本 将 会 被 分 成 比较 多 、 比 较 精 细 的 模式 类 , 而 如 果 识 别 国 值 较 低 , 则 会 产生 比 
较 少 、 比 较 粗 略 的 模式 类 . 

ARTI 比 较 好 地 缓解 了 竞争 型 学 习 中 的 “可 塑性 -稳定 性 窗 境 ”(stability- 
plasticity dilemma), 可 塑性 是 指 神经 网 络 要 有 学 习 新 知识 的 能 力 , 而 稳定 性 则 
是 指 神 经 网 络 在 学 习 新 知识 时 要 保持 对 旧 知 识 的 记忆 . 这 就 使 得 ART 网 络 具 有 
一 个 很 重要 的 优点 : 可 进行 增 量 学 习 (incremental learning) 或 在 线 学 习 (online 
learning). 

早期 的 ART 网 络 上 只 能 处 理 布 尔 型 输入 数据 , 此 后 ART 发 展 成 了 一 个 算法 
ik, 包括 能 处 理 实 值 输入 的 ART2 网 络 、 结 合 模糊 处 理 的 FuzzyART 网 络 ， 以 
及 可 进行 监督 学 习 的 ARTMAP 网 络 等 . 


5.5.3 SOM 网 络 

SOM(Self-Organizing Map, HA 442A 0R 5S) 2% [Kohonen, 1982] Æ — FP 38 
争 学 习 型 的 无 监督 神经 网 络 , 它 能 将 高 维 输入 数据 映射 到 低 维 空间 (通常 为 二 
HE), 同时 保持 输入 数据 在 蜗 维 空间 的 拓扑 结构 , 即将 蜗 维 空间 中 相似 的 样本 点 
映射 到 网 络 输出 层 中 的 邻近 神经 元 . 

如 图 5.11 Bras, SOM 网 络 中 的 输出 层 神 经 元 以 矩阵 方式 排列 在 二 维 空间 
中 , 每 个 神经 元 都 拥有 一 个 权 癌 量 , 网 络 在 接收 输入 辣 量 后 , 将 会 确定 输出 层 获 
胜 神 经 元 , 它 决 定 了 该 输入 同 量 在 低 维 空间 中 的 位 置 . SOM 的 训练 目标 就 是 为 
每 个 输出 层 和 神经 元 找到 合适 的 权 同 量 , 以 达到 保持 拓扑 结构 的 目的 . 

SOM 的 训练 过 程 很 简单 : 在 接收 到 一 个 训练 样本 后 , 每 个 输出 层 神 经 元 会 
计算 该 样本 与 自 喘 携带 的 权 向 量 之 间 的 距离 , 距离 最 近 的 神经 元 成 为 竞争 获胜 
者 , 称 为 最 佳 丐 配 单 元 (best matching unit). 然后 , 最 佳 匹 配 单元 及 其 邻近 神经 
元 的 权 同 量 将 被 调整 , 以 使 得 这 些 权 回 量 与 当前 输入 样本 的 距离 缩小 . 这 个 过 
FAS TIAN, 直至 收敛 . 
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结构 自 适 应 神经 网 络 亦 
AR “构造 性 ” (construc- 
tive) 神 经 网 络 . 


5.5.2 节 介 绍 的 ART 网 
络 由 于 隐 i 技 神 经 元 数目 可 
在 训练 过 程 中 增长 , 因此 
也 是 一 种 结构 自 适 应 神经 
网 络 . 
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far HOR 


fe 


Dey 


Eat N 层 


5.11 SOM 网 络 结 构 


5.5.4 级 联 相 关 网 络 


一 般 的 神经 网 络 模型 通常 假定 网 络 结构 是 事先 固定 的 , 训练 的 目的 是 利用 
训练 样本 来 确定 合适 的 连接 权 、 立 值 等 参数 . 与 此 不 同 , 结构 目 适 应 网 络 则 将 
网 络 结构 也 当 作 学 习 的 目标 之 一 , 并 希望 能 在 训练 过 程 中 找到 最 符合 数据 特点 
的 网 络 结构 . 级 联 相关 (Cascade-Correlation) 网 络 [Fahlman and Lebiere, 1990] 
是 结构 自 适 应 网 络 的 重要 代表 . 


(a) 初始 状态 (b) 增加 一 个 隐 情结 点 (c) 增加 第 二 个 隐 层 结 点 


É 5.12 级 联 相 关 网 络 的 训练 过 程 . 新 的 隐 结 点 加 入 时 , 红色 连接 权 通 过 最 大 化 新 结 
点 的 输出 与 网 络 误差 之 间 的 相关 性 来 进行 训 vs 


级 联 相 关 网 络 有 两 个 主要 成 分 : “级 联 ” 和 “相关 ”. 级 联 是 指 建立 层次 
连接 的 层级 结构 . 在 开始 训练 时 , 网 络 只 有 输入 层 和 输出 层 , 处 于 最 小 拓扑 结 
构 ; 随 看 训练 的 进行 , 如 图 5.12 Bras, 新 的 隐 层 神经 元 逐渐 加 入 , 从 而 创建 起 层 
级 结构 . 当 新 的 隐 层 神经 元 加 入 时 , 其 输入 闯 连 接 权 值 是 冻结 固定 的 . 相关 是 
指 通 过 最 大 化 新 神经 元 的 输出 与 网 络 误 大 之 加 的 相关 性 (correlation) 来 训练 相 
天 的 参数 . 


与 一 般 的 前 馈 神经 网 络 相 比 , 级 联 相 关 网 络 无 需 设 置 网 络 层 数 、 隐 层 神 经 
元 数目 , 且 训 练 速度 较 快 , 但 其 在 数据 较 小 时 易 陷 入 过 拟 合 . 


5.5 ”其 他 常见 神经 网 络 


J 称 “recursive neural 
networks” . 


从 图 5.14(a) 可 看 H, 
Boltzmann Wu Æ — #? iğ Ja 
神经 网 络 . 


Boltzmann 4 47 OF $F 
“平衡 态 ” (equilibrium) 
或 “平稳 分 布 ” (station- 
ary distribution). 
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5.5.5 Elman 23 


与 前 馈 神 经 网 络 不 同 , “递归 神经 网 络 ”(recurrent neural networks) iF 
网 络 中 出 现 环形 结构 ， 从 而 可 让 一 些 神 经 元 的 输出 反馈 回来 作为 输入 信号 . 这 
样 的 结构 与 信息 反馈 过 程 , 使 得 网 络 在 t 时 刻 的 输出 状态 不 仅 与 t 时 刻 的 输入 
AX, 还 与 t 一 1 时 刻 的 网 络 状 态 有 关 , 从 而 能 处 理 与 时 间 有 关 的 动态 变化 . 

Elman 网 络 [Elman, 1990] 是 最 剃 用 的 化 归 神经 网 络 之 一 , 其 结构 如 图 5.13 
Bran, 它 的 结构 与 多 层 前 馈 网 络 很 相似 , 但 隐 层 神经 元 的 输出 被 反馈 回来 , 与 下 
一 时 刻 输 入 层 神 经 元 提供 的 信号 一 起 , 作为 隐 层 神经 元 在 下 一 时 刻 的 输入 . Be 
层 神 经 元 通常 采用 Sigmoid 激活 函数 , 而 网 络 的 训练 则 利通 过 推广 的 BP 算法 
进行 [Pineda, 1987]. 


2 Z 


5.13 Elman 网 络 结构 


5.5.6 Boltzmann 机 

仲 经 网 络 中 有 一 类 模型 是 为 网 络 状态 定义 一 个 “能 量 ”(energy), 能 量 
最 小 化 时 网 络 达 到 理想 状态 , 而 网 络 的 训练 就 是 在 最 小 化 这 个 能 量 函 数 . 
Boltzmann 机 [Ackley et al., 1985] 吏 是 一 种 “基于 能 量 的 模型 ”(energy-based 
model), 常见 结构 如 图 5.14(a) Pras, 其 神经 元 分 为 两 层 : MR Re. SBI 
于 表示 数据 的 输入 与 输出 , 隐 层 则 被 理解 为 数据 的 内 在 表达 . Boltzmann 机 中 
的 神经 元 都 是 布尔 型 的 , 即 上 只 能 取 0、1 两 种 状态 , 状态 1 表示 激活 , 状态 0 表 
示 抑 制 . 令 向 量 s E {0,17 表示 nn 个 神经 元 的 状态 , wij 表示 神经 元 i 与 了 之 间 
的 连接 权 , 9; 表示 神经 元 1 的 国 值 , 则 状态 同 量 s 所 对 应 的 Boltzmann 机 能 量 

定义 为 1. _ 
E(s) 一 一 >》 ， So WijSiSj 一 X bisi | (5.20) 

i=1 j=i+1 i=1 
A DX 2% FF EAD HAS 7G A GE Bek AS A FAERIE BET, 则 网 络 最 终 将 
达到 Boltzmann 分 布 , 此 时 状态 向 量 s 出 现 的 概率 将 仅 由 其 能 量 与 所 有 可 能 状 
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EJIE tI BAT RAW 
获得 ， 
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(a) Boltzmann (b) E FRGoltzmann#tu 


5.14 Boltzmann 机 与 受 限 Boltzmann 机 


态 同 量 的 能 量 确 定 : 


e` E(s) 


P(s) = > e— E(t) ° 


(5.21) 

Boltzmann 机 的 训练 过 程 就 是 将 每 个 训练 样本 视 为 一 个 状态 回 量 , 使 
其 出 现 的 概率 尽 可 能 大 . 标准 的 Boltzmann 机 是 一 个 全 连接 图 , 训练 网 络 的 
F RRRA, 这 使 其 难以 用 于 解决 现实 任务 . 现实 中 和 常 采 用 受 限 Boltzmann 
机 (Restricted Boltzmann Machine, 简称 RBM). 如 图 5.14(b) Aras, 受 限 Boltz- 
mann 机 仪 保留 显 层 与 隐 层 之 间 的 连接 , 从 而 将 Boltzmann 机 结构 由 完全 图 简 
化 为 二 部 图 . 


受 限 Boltzmann 机 各 用 “对 比 散 度 ”(Contrastive Divergence, 简称 
CD) 算 法 [Hinton, 2010] 来 进行 训练 . 假定 网 络 中 有 Qa 个 显 层 神经 元 和 1 
个 隐 层 神经 元 , S v Al h op allen WR SRM KA NE, 则 由 于 同一 层 内 不 
存在 连接 , 有 


d 

P(vjh) = [TP lh), (5.22) 
i=] 
q - 

P(hlv) = | | P(r; | v). (5.23) 
j=1 


CD 算法 对 每 个 训练 样本 v, 先 根据 式 (5.23) 计 算出 隐 层 神经 元 状态 的 概率 分 布 ， 
然后 根据 这 个 概率 分 布 来 样 得 到 h; 此 后 , 类 似 地 根据 式 (5.22) 从 h FE v, 再 
Mv! 产生 h'; 连接 权 的 更 新 公式 为 


Aw=7(vh' -v'h'") (5.24) 


大 型 深度 学 习 模 型 中 甚 
至 有 上 百 亿 个 参数 . 


这 里 所 说 的 “多 隐 层 ” 
是 指 三 个 以 上 隐 技 ; 深度 
学 习 模 型 通常 有 八 九 层 其 
至 更 多 隐 层 . 
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5.6 深度 学 习 


理论 上 来 说 , SARS A ZR BO.“ 容量”(capacity) 越 大 , KE 
味 着 它 能 完成 更 复杂 的 学 习 任 务 . 但 一 般 情 形 下 , 复杂 模型 的 训练 效率 低 , 易 陷 
入 过 拟 合 , 因此 难以 受到 人 们 青睐 . 而 随 着 云 计算 、 大 数据 时 代 的 到 来 , 计算 
能 力 的 大 幅 提 高 可 绥 解 训练 低 效 性 , 训练 数据 的 大 幅 增 加 则 可 降低 过 拟 合 风险 ， 
KE, U “REF” (deep learning) 为 代表 的 复杂 模型 开始 受到 人 们 的 关注 . 

典型 的 深度 学 习 模 型 就 是 很 深层 的 神经 网 络 . 显然 , 对 神经 网 络 模型 , 提高 
容量 的 一 个 简单 办 法 是 增加 隐 层 的 数目 . 隐 层 多 了 , 相应 的 神经 元 连接 权 、 立 
值 等 参数 加 会 更 多 . 模型 复 科 上 度 也 可 通过 单纯 增加 隐 层 神经 元 的 数目 来 实现 ， 
前 面 我 们 谈 到 过 , 单 隐 层 的 多 层 前 馈 § 网 络 已 具有 很 强大 的 学 习 能 力 ; 但 从 增加 
模型 复杂 度 的 角度 来 看 , 增加 隐 层 的 数目 显然 比 增 加 隐 层 神经 元 的 数 日 更 有 效 ， 
因为 增加 隐 层 数 不 仅 增加 了 拥有 激活 函数 的 神经 元 数目 , 还 增加 了 激活 函数 髓 
套 的 层 数 . 然而 , 多 隐 层 神经 网 络 难 以 直接 用 经 典 算法 (例如 标准 BP 算法 ) 进 行 
训练 , 因为 误差 在 多 隐 层 内 道 传播 时 , FETE SS “ACH” (diverge) if A Ae We wc Fl) 

无 监督 逐 层 训练 (unsupervised layer-wise training) 是 多 隐 层 网 络 训 练 的 
Al MF Be, 其 基本 思想 是 每 次 训练 一 层 隐 结 乓 , 训练 时 将 上 一 层 隐 结 后 的 重 
出 作为 输入 , 而 本 层 隐 结 点 的 输出 作为 下 一 层 隐 结 点 的 输入 , 这 称 为 “ 预 训 
练 ”(pre-training); 在 预 训练 全 部 完成 后 , 再 对 整个 网 络 进行 “微调 ”(fine- 
tuning) 训 练 . 例如 , 在 深度 信念 网 络 (deep belief network, 人 简称 DBN) [Hinton 
et al., 2006] F, 每 层 都 是 一 个 受 限 Boltzmann 机 , 即 整 个 网 络 可 视 为 若干 个 
RBM 堆 合 而 得 . 在 使 用 无 监督 逐 层 训练 时 , 首先 训练 第 一 层 , 这 是 关于 训练 样 
本 的 RBM 模 型 , 可 按 标 准 的 RBM 训练 ; Ala, 将 第 一 层 了 预 训练 好 的 隐 结 点 视 为 
第 二 层 的 输入 结 点 , 对 第 二 层 进 行 预 训练 ;…… 各 层 预 训练 完成 后 , 再 利用 BP 
算法 等 对 整个 网 络 进 行 训 练 . 

EKE, “ 预 训 练 十 微调 ”的 做 法 可 视 为 将 大 量 参数 分 组 , 对 每 组 先 找 到 局 
部 看 来 比较 好 的 设置 , 然后 再 基于 这 些 局 部 较 优 的 结果 联合 起 来 进行 全 局 寻 优 . 
这 样 就 在 利用 了 模型 大 量 参 数 所 提供 的 自由 上 大 的 同时 , 有 效 地 节省 了 训练 开销 . 

Fy — FH A Vil BIT AY ze “AM SE SE” (weight sharing), 即 让 一 组 
神经 元 使 用 相同 的 连接 权 . CS OR CE ee FH FH’ DS) 43 (Convolutional Neural 
Network, 简称 CNN) [LeCun and Bengio, 1995; LeCun et al., 1998] PASE 
重要 作用 . 以 CNN 进行 手写 数字 识别 任务 为 例 [LeCun et al., 1998], 如 图 5.15 
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近来 人 们 在 使 用 CNN 
时 常 将 Sigmoid 激活 函数 
替换 为 修正 线性 函数 


f(x) = po 


这 样 的 神经 元 称 为 Re- 
LU(Rectified Linear Unit); 
此 外 ,汇合 层 的 操作 常 采 
用 “RA” x «ae $7 ， 
这 更 接近 于 集成 学 习 中 的 
一 些 操作 , 和 参见 8.4 节 ， 


if x < 0, 


otherwise, 


车 将 网 络 中 前 若干 层 处 
理 都 看 作 是 在 进行 特征 表 
T, 只 把 最 后 一 层 处 理 看 
必 是 在 进行 “分 类 ”， 则 
分 类 使 用 的 就 是 一 个 简单 
模型 . 
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图 5.15 卷 积 神经 网 络 用 于 手写 数字 识别 [LeCun et al., 1998] 


所 示 , 网 络 输 入 是 一 个 32x32 的 手写 数字 图 像 , 输出 是 其 识别 结果 , CNN 复合 
多 个 “ 卷 积 层 ” 和 “采样 层 ” 对 输入 信号 进行 加 工 , 然后 在 连接 层 实 现 与 输出 
目标 之 间 的 映射 . 每 个 卷 积 层 都 包含 多 个 特征 映射 (feature map), 每 个 特征 映 
射 是 一 个 由 多 个 神经 元 构成 的 “平面 ”, 通过 一 种 卷 积 滤波 器 提取 输入 的 一 种 
特征 . 例如 , 图 5.15 中 第 一 个 卷 积 层 由 6 个 特征 映射 构成 , 每 个 特征 映射 是 一 
个 28x28 的 神经 元 阵列 , 其 中 每 个 神经 元 负责 从 5x5 的 区 域 通过 卷 积 滤波 器 
提取 局 部 特征 . 采样 层 亦 称 为 “汇合 ”(pooling) 层 , 其 作用 是 基于 局 部 相关 性 
原理 进行 亚 采 样 , 从 而 在 减少 数据 量 的 同时 保留 有 用 信息 . 例如 图 5.15 中 第 一 
个 采样 屋 有 6 个 14x14 的 特征 映射 , 其 中 每 个 神经 元 与 上 一 层 中 对 应 特征 映 
射 的 2x2 邻 域 相连 , 并 据 此 计算 输出 . 通过 复合 卷 积 层 和 采样 层 , 图 5.15 中 的 
CNN 将 原始 图 像 映 射 成 120 维特 征 向 量 , 最 后 通过 一 个 由 84 个 神经 元 构成 的 
连接 层 和 输出 层 连 接 完 成 识别 任务 . CNN 可 用 BP 算法 进行 训练 , 但 在 训练 中 ， 
无 论 是 卷 积 层 还 是 采样 层 , 其 每 一 组 神经 元 ( 即 图 5.15 中 的 每 个 “平面 ”) 都 是 
用 相同 的 连接 权 , 从 而 大 幅 减 少 了 需要 训练 的 参数 数目 . 


我 们 可 以 从 另 一 个 角度 来 理解 深度 学 习 . 无 论 是 DBN 还 是 CNN, 其 多 隐 
RES., BEX ERRA BET Xb BEL, 可 看 作 是 在 对 输入 信号 进行 
逐 层 加 工 , 从 而 把 初始 的 、 与 输出 目标 之 间 联 系 不 太 密 切 的 输入 表示 , 转化 
成 与 输出 目标 联系 更 密切 的 表示 , TEP OR MET Be J Fe i BR YE DA Se 
成 的 任务 成 为 可 能 . 换言之 , 通过 多 层 处 理 , 逐渐 将 初始 的 “低层 ”特征 表示 
RHEI “W” FERIRA, 用 “人 条 单 恒 型 ” 即 可 完成 复习 的 分 类 等 学 习 任 
F. 由 此 可 将 深 虚 和 尝 习 理解 为 进行 “特征 笠 习 ”(feature learning) k “RPR 


-J” (representation learning). 


以 往 在 机 器 和 学习 用 于 现实 任务 时 , 描述 样本 的 特征 通常 需 由 人 类 专家 来 设 
计 , 这 称 为 “特征 工程 ”(feature engineering). 众所周知 , 特征 的 好 坏 对 泛 化 性 


5.7 阅读 材料 


2012 年 前 的 和 名称 是 
IEEE Transactions on Neu- 
ral Networks, 


近来 NIPS 更 偏重 于 机 
器 学 习 . 


LMS 亦 称 Widrow-Hoff 
规则 或 5 规则 . 
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能 有 至 关 重 要 的 影响 人 类 专家 设计 出 好 特征 也 并 非 易 事 ; 特征 学 习 则 通过 机 
器 学 习 技 术 上 自身 来 产生 好 特征 , 这 使 机 器 学 习 同 “全 自动 数据 分 析 ” 又 前 进 了 


5.7 阅读 材料 


[Haykin, 1998] 是 很 好 的 神经 网 络 教 科 书 , [Bishop, 1995] 则 偏重 于 机 器 学 
习 和 模式 识别 . 神经 网 络 领 域 的 主流 学 术 期 刊 有 Neural Computation, Neural 
Networks. IEEE Transactions on Neural Networks and Learning Systems; 
主要 国际 学 术 会 议 有 国际 神经 信息 处 理 系 统 会 议 (NIPS) 和 国际 神经 网 络 联合 
会 议 ([IJCNN), 区 域 性 国际 会 议 主 要 有 欧洲 神经 网 络 会 议 (ICANN) 和 亚太 神经 
网 络 会 议 (ICONIP). 

M-P 神 经 元 模型 使 用 最 为 广泛 , 但 还 有 一 些 神 经 元 模型 也 受到 关注 , 如 考 
谋 了 电位 脉 神 发 放 时 则 而 不 仅 是 累积 电位 的 脉冲 神经 元 (spiking neuron) 模 型 
[Gerstner and Kistler, 2002]. 

BP 算法 由 [Werbos, 1974] 首先 提出 , 此 后 [Rumelhart et al., 1986a,b] 重新 
发 明 . BP 算法 实质 是 LMS (Least Mean Square) 算法 的 推广 . LMS 试图 使 网 
络 的 输出 均 方 误差 最 小 化 , 可 用 于 神经 元 激活 函数 可 微 的 感知 机 学 习 ; 将 LMS 
推广 到 由 非 线 性 可 微 神经 元 组 成 的 多 层 前 馈 网 络 , 就 得 到 BP 算法 , 因此 BP 算 
法 亦 称 广义 6 规则 [Chauvin and Rumelhart, 1995]. 

[MacKay，1992] 在 见 叶 斯 框架 下 提出 了 上 自动 确定 神经 网 络 正 则 化 参数 的 
方法 . [Gori and Tesi, 1992] 对 BP 网 络 的 局 部 极 小 问题 进行 了 详细 讨论 . [Yao, 
1999] 综述 了 利用 以 喧 传 算法 为 代表 的 沈 化 计算 (evolutionary computation) 拉 
木 来 生成 神经 网 络 的 研究 工作 . 对 BP 算法 的 改进 有 大 量 人 研究 , 例如 为 了 提速 ， 
可 在 训练 过 程 中 上 自 适 应 缩小 和 学习 率 , 即 先 使 用 较 大 的 学 习 率 然后 逐步 缩小 , 更 
g “SIJ” (trick) 可 参阅 [Reed and Marks, 1998; Orr and Müller, 1998]. 

关于 RBF 网 络 训练 过 程 可 参阅 [Schwenker et al., 2001]. [Carpenter and 
Grossberg, 1991] 介绍 了 ART FOE. SOM 网 络 在 聚 类 、 高 维 数据 可 视 化 、 
图 像 分 割 等 方面 有 广泛 应 用 , 可 参阅 [Kohonen, 2001]. [Bengio et al., 2013] 综 
述 了 深度 学 习 方 面 的 研究 进展 . 

神经 网 络 是 一 种 难 解 释 的 “黑箱 模型 ”, 但 已 有 一 些 工 作 尝 试 改善 神经 
网 络 的 可 解释 性 , 主要 途径 是 从 神经 网 络 中 抽取 易于 理解 的 符号 规则 , 可 参阅 
[Tickle et al., 1998; Zhou, 2004]. 
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习题 


西瓜 数据 集 3.0 见 p.84 
的 表 4.3. 


UCI 数据 集 见 
http:/ /archive.ics.uci.edu/ml/. 


西瓜 数据 集 3.0c I p.89 
的 表 4.5. 


MNIST 数据 集 见 
http:/ /yann.lecun.com/ 
exdb /mnist/. 


5.1 


5.2 


9.9 


5.4 


5.5 


5.6 


5.7 


5.8 


5.9* 


5.10 


第 5 章 神经 网 络 


试 述 将 线性 函数 f (ac) = wte 用 作 神 经 元 激活 函数 的 缺陷 . 
试 述 使 用 图 5.2(b) 激活 函数 的 神经 元 与 对 率 回 归 的 联系 . 
对 于 图 5.7 中 的 vn, 试 推导 出 BP 算法 中 的 更 新 公式 (5.13). 
试 述 式 (5.6) 中 学 习 率 的 取 值 对 神经 网 络 训 练 的 影响 . 


试 编程 实现 标准 BP 算法 和 累积 BP 算法 , 在 西瓜 数据 集 3.0 上 分 别 
用 这 两 个 算法 训练 一 个 单 隐 层 网 络 , 并 进行 比较 . 

试 设 计 一 个 BP 改进 算法 , 能 通过 动态 调整 学 习 率 显著 提升 收敛 速度 . 
编程 实现 该 算法 , 并 选择 两 个 UCI 数据 集 与 标准 BP 算法 进行 实验 
比较 . 

根据 式 (5.18) 和 (5.19), 试 构造 一 个 能 解决 异 或 问题 的 单 层 RBF 神经 
网 络 . 


从 网 上 下 载 或 自己 编程 实现 SOM 网 络 , 并 观察 其 在 西瓜 数据 集 3.00 
上 产生 的 结果 . 


试 推导 用 于 Elman 网 络 的 BP 算法 . 


从 网 上 下 载 或 自己 编程 实现 一 个 卷 积 神经 网 络 , 并 在 手写 字符 识别 数 
HE MNIST 上 进行 实验 测试 . 
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iz] 7 AF 1969 年 获 图 


比 书 中 有 不 少 关 于 神经 
网 络 的 真知 灼 见 ,但 其 重 
要 论断 所 导致 的 后 果 , 对 
神经 网 络 乃 至 人 工 智 能 整 
体 的 研究 产生 了 极为 残酷 
的 影响 , 因此 在 神经 网 络 
重 又 兴起 后 , 该 书 受 到 很 
多 批判 1988 年 再 版 时 ， 
闵 斯 基 专 门 增加 了 一 章 以 
VE TF AP 


第 5 章 神经 网 络 


小 故事 : 神经 网 络 的 几 起 几 落 

二 十 世纪 四 十 年 代 M-P 神经 元 模型 、Hebb 学 习 律 
出 现 后 , 五 十 年 代 出 现 了 以 感知 机 、Adaline 为 代表 的 一 
系列 成 果 , 这 是 神经 网 络 发 展 的 第 一 个 高 潮 期 . 不 幸 的 
Æ, MIT 计算 机 科学 研究 的 奠基 人 马 文 . BBE (Marvin 
Minsky, 1927 一 2016) 与 Seymour Papert 在 1969 年 出 版 
了 《感知 机 》 一 书 , 书 中 指出 , 单 层 神经 网 络 无 法 解决 非 
线性 问题 , 而 多 层 网 络 的 训练 算法 尚 看 不 到 希望 . 这 个 论 
断 直 接 使 神经 网 络 研究 进入 了 “冰河 期 ”, 美国 和 苏联 均 停 止 了 对 神经 网 络 研 
究 的 资助 , 全 球 该 领域 研究 人 员 纷 纷 转行 , 仅 剩 极 少 数 人 坚持 下 来 . 哈佛 大 学 的 
Paul Werbos 在 1974 年 发 明 BP 算法 时 , 正和 值 神经 网 络 冰河 期 , 因此 未 受到 应 
有 的 重视 . 

1983 年 , 加 州 理 工学 院 的 物理 学 家 John Hopfield 利用 神经 网 络 , 在 旅行 商 
问题 这 个 NP 完全 问题 的 求解 上 获得 当时 最 好 结果 , SHY RA. 稍 后 , UCSD 
的 David Rumelhart 与 James McClelland 领导 的 PDP 小 组 出 版 了 《并 行 分 
布 处 理 : 认 知 微 结 构 的 探索 》 一 书 , Rumelhart 等 人 重新 发 明了 BP 算法 , 由 于 
当时 正 处 于 Hopfield 带 来 的 兴奋 之 中 , BP 算法 迅速 走红 . 这 掀起 了 神经 网 络 
的 第 二 次 高 潮 . 二 十 世纪 九 十 年 代 中 期 , 随 着 统计 学 习 理 论 和 支持 向 量 机 的 兴 
起 , MAMAS DN HCE MAB. RET. ERA PRA NS 
I” (trick) 的 弱点 更 为 明显 , 于 是 神经 网 络 研究 又 进入 低谷 , NIPS 会 议 甚至 多 
年 不 接受 以 神经 网 络 为 主题 的 论文 . 

2010 年 前 后 , 随 着 计算 能 力 的 迅猛 提升 和 大 数据 的 涌现 , 神经 网 络 研 究 在 

“深度 学 习 ” 的 名 义 下 又 重新 崛起 , 先是 在 InageNet 等 若干 竞赛 上 以 大 优势 
夺冠 , 此 后 谷歌 、 百 度 、 脸 书 等 公司 纷纷 投入 巨 资 进行 研发 , 神经 网 络 迎 来 了 
第 三 次 高 潮 . 


第 6 章 支持 回 量 机 


6.1 间隔 与 支持 向 量 


给 定 训 练 样本 集 D = {(zl y1), (2;Y2)) (Zm gm Yi E {-1, +1}, 分 
类 学 习 最 基本 的 想法 就 是 基于 训练 集 D 在 样本 空间 中 找到 一 个 划分 超 平面 , 将 
不 同类 别 的 样本 分 开 . 但 能 将 训练 样本 分 开 的 划分 超 平 面 可 能 有 很 多 , 如 图 6.1 
所 示 , 我 们 应 该 努力 去 找到 哪 一 个 呢 ? 


6.1 存在 多 个 划分 超 平 面 将 两 美 训练 样本 分 开 


百 观 上 看 , 应 该 去 找 位 于 两 关 训 练习 本 “正中 间 ” 的 划分 超 平 面 , 即 图 6.1 
中 红色 的 那个 , 因为 该 划分 超 平 面 对 训 练 样 本 局 部 扰动 的 “ 容 息 ”性 最 好 . 例 
如 , 由 于 训练 集 的 局 限 性 或 噪声 的 因素 , 训练 集 外 的 样本 可 能 比 图 6.1 中 的 训练 
样本 更 接近 两 个 类 的 分 隔 界 , 这 将 使 许多 划分 超 平 面 出 现 错误 , 而 红色 的 超 平 
面 受 影响 最 小 . 换言之 , 这 个 划分 超 平 面 所 产生 的 分 类 结果 是 最 鲁 棒 的 , 对 未 见 
示例 的 汉化 能 力 最 强 . 

在 样本 空间 中 , 划分 超 平 面 可 通过 如 下 线性 方程 来 手 述 : 


wetb=0, (6.1) 


其 中 w = (w; w... wd NY SB, 决定 丁 超 平面 的 方向 ; 为 位 移 项 , 决定 
了 超 平 面 与 原点 之 间 的 距离 . 显然 , 划分 超 平 面 可 被 法 向 量 w 和 位 移 5 确定， 
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参见 习题 6.1. 


者 超 平面 (rw',b') 能 将 
训 鳞 样本 正确 分 类 , 则 总 
存在 缩放 变换 st 上 w 
和 cb ++ b! 使 式 (6.3) 成 立 ， 


每 个 样本 点 对 应 一 个 特 
征 向 量 . 


第 6 章 支持 向 量 机 
下 面 我 们 将 其 记 为 (w,b). 样本 空间 中 任意 点 x 到 超 平 面 (w, b) AESI SN 


r= 一 一 一 (6.2) 


假设 超 平面 (w,5) 能 将 训练 样本 正确 分 类 , 即 对 于 (xy) € D, # yi = 
+1, WE wlae;,+b>0; Æ y = —1, 则 有 wwToc; 十 一 0. $ 


(6.3) 


wte; +b È +l, yi = +1 ; 
win,+b< 


=k Yi = —1 . 


如 图 6.2 Pras, 距离 超 平 面 最 近 的 这 几 个 训练 样本 点 使 式 (6.3) 的 等 号 成 立 ， 
它们 被 称 为 “支持 向 量 ”(support vector), 两 个 异类 支持 向 量 到 超 平 面 的 距离 
之 和 为 


y= TT | (6.4) 


ERA “E” (margin). 


-十 
十 <P a win +h=>Q 
+ +. TAS a 
+ Ka pe. iT: 
十 4 ay a a wie t= 一] 
S- 


6.2 支持 向 量 与 间隔 


AX Fk BAA “me KA BR” (maximum margin) 的 划分 超 平面 , 也 就 是 要 找 
到 能 满足 式 (6.3) 中 约束 的 参数 也 和 b, 使 得 ?7 最 大 , B 
2 


max 一 一 一 
wb ||ao|| 


(6.5) 


s.t. y;(wia,; + 21, i=1,2,...,m. 


6.2 对偶 问题 


间隔 貌似 仅 与 w AK, 
但 事实 上 6b 通过 约束 隐 式 
地 影响 着 w 的 取 值 , 进而 
对 间隔 产生 影响 ， 


和 参见 附录 B.1. 
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显然 , 为 了 最 大 化 间隔 , NERAK wlt, 这 等 价 于 最 小 化 wll? 于 是 ， 
式 (6.5) 可 重 写 为 


1 p 
min — lw 6.6 
cE oO || 2 || (6.6) 
s.t. y(wila;+b)>1, i=1,2,...,m. 


这 就 是 支持 回 量 机 (Support Vector Machine, 简称 SVM) 的 基本 型 . 


6.2 对 偶 问 题 
我 们 和 希望 求解 式 (6.6) 来 得 到 大 间隔 划分 超 平 面 所 对 应 的 模型 
f(z) = wtr +b, (6.7) 


其 中 心 和 是 模型 参数 注意 到 式 (6.6) 本 身 是 一 个 凸 二 次 规划 (convex 
quadratic programming) 问题 , 能 直接 用 现成 的 优化 计算 包 求 解 , 但 我 们 可 
以 有 更 高 效 的 办 法 . 

对 式 (6.6) 使 用 拉 格 表 日 乘 子 法 可 得 到 其 “对 偶 问 题 ”(dual problem). A 
体 来 说 , 对 式 (6.6) 的 每 条 约束 添加 拉 格 朗 日 滋 子 a > 0, 则 该 问题 的 拉 格 朗 日 
函数 可 写 为 


1 TTL 
L(w,b,a) = 5 lwl? + > ag (1 — yi(w a; + d)) , (6.8) 


t=1 


其 中 a = (a1; a2;...;am) & L(w,b, a) 对 w Fl b Ain SAE aI 


TTL 

w= > Oi ViTi , (6.9) 
4 一 1 
TTL 

0 一 >》 ays . (6.10) 
4 一 1 


将 式 (6.9) 代 入 (6.8), 即 可 将 L(w,b,a) 中 的 w 和 消去 ,再 考虑 式 (6.10) 的 约 
R, 就 得 到 式 (6.6) 的 对 个 问 题 


max X a 一 5 >》_ X aiayyyi Ti Lj (6.11) 
t=] 


i=l j=1 
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参见 附录 B.1. 


如 [Vapnik, 1999] ET iË, 
支持 向 量 机 这 个 名 字 强 调 
了 此 类 学 习 器 的 关键 是 如 
何 从 支持 向 量 枸 建 出 解 ; 
同时 也 暗示 着 其 复杂 度 主 
要 与 支持 向 量 的 数目 有 关 . 


二 次 规划 泰 见 附 录 B.2. 


TTL 
s.t. > aye =0, 
i=1 
a, 20, ¿= 1,2, ,m 


WH a 后 , HH w 与 5b 即 可 得 到 模型 
f(x) = w'a+b 


m 
= `S YiL L +b. (6.12) 


i=1 


从 对 偶 问 题 (6.11) 解 出 的 ; AER (6.8) FY Hi FE BA A Fe, 它 恰 对 应 着 训 
练 样本 (zi, yi)， 注 意 到 式 (6.6) 中 有 不 等 式 约束 , 因此 上 述 过 程 需 满足 KKT 
(Karush-Kuhn-Tucker) 条 件 , 即 要 求 


a, 20; 
yif (xi) -120; (6.13) 
ai (yif (Ti) — 1)=0. 


于 是 , 对 任意 训练 样本 (xiy), BA a = 0 E yif (xi) = 1. Fa; = 0, Wi 
本 将 不 会 在 式 (6.12) 的 求 和 中 出 现 , 也 就 不 会 对 f(x) 有 任何 影响 ; FF ai > oO, 
则 必 有 ys f(a) = 1, 所 对 应 的 样本 点 位 于 最 大 间隔 边界 上 , 是 一 个 文 持 疝 量 . 
这 显示 出 文 持 癌 量 机 的 一 个 重要 性 质 : 训练 完成 后 , 大 部 分 的 训练 样本 都 不 需 
保留 , 最 终 模 型 仅 与 文 持 同 量 有 天 . 

那么 , 如 何 求解 式 (6.11) We? 不 难 发 现 , 这 是 一 个 二 次 规划 问题 , 可 使 用 通 
用 的 二 次 规划 算法 来 求解 ; 然而 , 该 问题 的 规模 正比 于 训练 样本 数 , 这 会 在 实际 
任务 中 造成 很 大 的 开销 . 为 了 避 开 这 个 障碍 , 人们 通过 利用 问题 本 身 的 特性 , 提 
出 了 很 多 高 效 算 法 , SMO (Sequential Minimal Optimization) 是 其 中 一 个 复 名 
的 代表 [Platt, 1998]. 

SMO 的 基本 思路 是 先 固 定 ai 之 外 的 所 有 参数 , 然后 求 a; 上 的 极 值 . 由 于 
存在 约束 > ogy: = 0, 者 固定 oi 之 外 的 其 他 变量 , Wa; 可 由 其 他 变量 导出 . 
于 是 , SMO 每 次 选择 两 个 变量 at 和 aj, 并 固定 其 他 参数 . 这 样 , 在 参数 初始 化 
Ja, SMO 不 断 执 行 如 下 两 个 步骤 直至 收敛 : 


。 选取 一 对 需 更 新 的 变量 as 和 aj; 


6.2 对偶 问题 
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e 固定 a; 和 oj 以 外 的 参数 , 求解 式 (6.11) 获 得 更 新 后 的 a; 和 aj. 


注意 到 只 需 选 取 的 a; Ala; 中 有 一 个 不 满足 KKT 条 件 (6.13), 目标 函数 就 
会 在 迭代 后 增 大 [Osuna et al., 1997]. 直观 来 看 , KKT 条 件 违 背 的 程度 越 大 , N 
变量 更 新 后 可 能 导致 的 目标 函数 值 增幅 越 大 . 于 是 , SMO 先 选 取 违 背 KKT 条 
件 程 度 最 大 的 变量 . 第 二 个 变量 应 选择 一 个 使 目标 函数 值 增长 最 快 的 变量 , 但 
由 于 比较 各 变量 所 对 应 的 目标 函数 值 增幅 的 复杂 度 过 高 , 因此 SMO 采用 了 一 
个 启发 式 : 使 选取 的 两 变量 所 对 应 样本 之 间 的 间隔 最 大 . 一 种 直观 的 解释 是 , 这 
样 的 两 个 变量 有 很 大 的 差别 , 与 对 两 个 相似 的 变量 进行 更 新 相 比 , 对 它们 进行 
更 新 会 带 给 目标 函数 值 更 大 的 变化 . 

SMO 算法 之 所 以 高 效 , 恰 由 于 在 固定 其 他 参数 后 , 仅 优 化 两 个 参数 的 过 程 
能 做 到 非常 高 效 . 具体 来 说 , 仅 考虑 a; Mla; 时, 式 (6.11) 中 的 约束 可 重 写 为 


AiYi + jy; =C, a 20, as; 2d, (6.14) 
其 中 
C = = > QkUk (6.15) 
kžij 


是 使 》 ayy; = 二 0 成 并 的 常数 . 用 
i=l 
AiYi t &jYj =€ (6.16) 


消去 式 (6.11) 中 的 变量 aj, 则 得 到 一 个 关于 a; 的 单 变量 二 次 规划 问题 , 仅 有 的 
约束 是 ai > 0. 不 难 发 现 , 这 样 的 二 次 规划 问题 具有 闭 式 解 , 于 是 不 必 调 用 数值 
优化 算法 即 可 高 效 地 计算 出 更 新 后 的 ai 和 aj. 

如 何 确定 偏 移 项 5b ME? 注意 到 对 任意 支持 同 量 (Xs, ys) 都 有 ysf(xs) = 1, 


Ys b> oilid Ls + ) =1, (6.17) 


TES 


BH 


其 中 5 = {i | a; > 0, i= 1,2,... m} 为 所 有 文 持 辣 量 的 下 标 集 . 理论 上 , 可 选 
取 任 意 支 持 同 量 并 通过 求解 式 (6.17) 获 得 b, 但 现实 任务 中 第 采用 一 种 更 丝 棒 的 
做 法 : 使 用 所 有 文 持 网 量 求解 的 平均 值 


本 [可 > (wu 一 Samata) l (6.18) 


ses 1ES 
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6.3 核 函 数 


在 本 章 前 面 的 讨论 中 , 我 们 假设 训练 样本 是 线性 可 分 的 , 即 存 在 一 个 划分 
超 平 面 能 将 训练 样本 正确 分 类 . 然而 在 现实 任务 中 , 原始 样本 空间 内 也 许 并 不 
存在 一 个 能 正确 划分 两 类 样本 的 超 平面 . 例如 图 6.3 中 的 “ 异 或 ”问题 束 不 是 
线性 可 分 的 . 


图 6.3 异 或 问题 与 非 线 性 映射 


对 这 样 的 问题 , 可 将 样本 从 原始 空间 映射 到 一 个 更 高 维 的 特征 空间 , 使 得 
样本 在 这 个 特征 空间 内 线性 可 分 . 例如 在 图 6.3 中 , 若 将 原始 的 二 维 空间 映射 
到 一 个 合适 的 三 维 空间 , 就 能 找到 一 个 合适 的 划分 超 平面 . 幸运 的 是 , 如 果 原 始 
参见 第 12 章 . 空间 是 有 限 维 , 即 属性 数 有 限 , 那么 一 定 存在 一 个 高 维特 征 空间 使 样本 可 分 . 
S d(x) 表示 将 x 映射 后 的 特征 向 量 , 于 是 , 在 特征 空间 中 划分 超 平面 所 对 
应 的 模型 可 表示 为 
f(x) = w' d(x) +b, (6.19) 


其 中 w 和 bb 是 模型 参数 . 类 似 式 (6.6), 有 


s.t. yilw p(x) +b) > 1, t=1,2,...,m. 


其 对 偶 问题 是 


max Dm -3 D> >> aiajyiyjo(wi)™ (es) (6.21) 
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求解 式 (6.21) 涉 及 到 计算 plx) (æj), 这 是 样本 zi 与 zj 映射 到 特征 空间 
之 后 的 内 积 . 由 于 特征 空间 维 数 可 能 很 局, EE PY RE ETC HE, 因此 直接 计算 
plx) p(x) 通常 是 困难 的 . 为 了 避 开 这 个 障碍 , 可 以 设想 这 样 一 个 函数 : 


k(Di £j) = (p(x), PL;)) 一 gzi) p(x) ， (6.22) 
Bla, Sa, 在 特征 空间 的 内 积 等 于 它们 在 原始 样本 空间 中 通过 函数 (-, -) 计算 


SSA HE Qe 的 结果 . 有 了 这 样 的 函数 , 我 们 就 不 必 直接 去 计算 高 维 甚至 无 穷 维特 征 空间 中 
的 内 积 , 于 是 式 (6.21) 可 重 写 为 


TT mo m 
Ei 2 ai E > 2 Aij YiY 5 K(X, L) (6.23) 
t=1 t=1 j=1 
m 
S.t. Š ay =0, 
一】 
OO, =l A mM 


求解 后 即 可 得 到 
f(x) 一 由 0(z) +b 


一 > avyib(ai) d(x) + 6 


i=1 


= X aiyin(a, zi;)+b. (6.24) 
i=1 
这 里 的 函数 eC, ) 就 是 “ 核 函 数 ”(kernel function). 式 (6.24) 显示 出 模型 最 
优 解 可 通过 训练 样本 的 核 函 数 展开 , IR ESR “OC EF IA ESL” (support 
vector expansion). 
WA, ORG oO) 的 具体 形式 , WATS Wy PAB K(-,-). 但 在 现实 
任务 中 我 们 通常 不 知道 o) 是 什么 形式 , 那么 , REA PR BM ETRE FF EWE? 
什么 样 的 函数 能 做 核 函数 呢 ? 我 们 有 下 面 的 定理 : 
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证 明 可 参阅 [Schalkopf 定理 6.1 (AR) CX ARMABZIA, K(.,-) 是 定义 在 二 xx 证 上 的 对 称 
and Smola | | 
d Smola, 2002) 函数 , 则 e 是 核 函 数 当 且 仅 当 对 于 任意 数据 D = {zx1w2,.…. ,wm},，“ 核 箱 
阵 ”(kernel matrix) K 总 是 半 正 定 的 : 
(arya) (Pl)) > R(E, am) 
K = | K(aj,%1) -e K(aj,2;) e K(X, Lm) 
K(Bm, 21) = Km, j) +--+ K( Bm, Pm) 


定理 6.1 表明 , 只 要 一 个 对 称 函 数 所 对 应 的 核 矩 阵 半 正定 , 它 就 能 作为 核 
函数 使 用 ， 事 实 上 , 对 于 一 个 半 正 定 核 矩阵 , 总 能 找到 一 个 与 之 对 应 的 映射 
p. HEZ, 任何 一 个 核 函 数 都 隐 式 地 定义 了 一 个 称 为 “再 生 核 希 尔 伯 特 空 
间 ”(Reproducing Kernel Hilbert Space, 简称 RKHS) My FFE 4 IA. 
通过 前 面 的 讨论 可 知 , 我 们 希望 样本 在 特征 空间 内 线性 可 分 , 因此 特征 空 
间 的 好 坏 对 支持 向 量 机 的 性 能 至 关 重 要 . 需 注意 的 是 , 在 不 知道 特征 映射 的 形 
R, 我 们 并 不 知道 什么 样 的 核 函 数 是 合适 的 , 而 核 函 数 也 仅 是 隐 式 地 定义 了 
这 方面 有 一 些 基 本 的 经 ”这 个 特征 空间 . 于 是 ，“ 核 函数 选择 ”成 为 支持 向 量 机 的 最 大 变数 . 若 核 函 数 


验 , 例如 对 文本 数据 通常 
采用 线性 核 , 情况 不 明 时 ”选择 不 合适 , 则 意味 看 将 样本 映射 到 了 一 个 不 合适 的 特征 空间 , 很 可 能 导致 性 


可 先 尝试 高 斯 核 能 不 佳 
R 6.1 列 出 了 几 种 常用 的 核 函 数 . 


表 6.1 第 用 核 函 数 


名 称 FIER 参数 

线性 核 Klx x) = æl æ; 
d = 1 时 退化 为 线性 核 , 多 项 式 核 K(i, Ti) = (af æ;)? Qd 宇 1 为 多 项 式 的 次 数 
高 斯 核 亦 称 RBF 核 . 高 斯 核 K(i, £j) = exp (一 le =z") o 0 为 高 斯 核 的 带宽 (width) 


拉 普 拉 斯 核 mi Ej) = exp ( 一 lz:—2;l) a>QdQ 
Sigmoid 核 r(x; x;) =tanh(Gaia;+0) tanh ARMHiEWM BAR, B>0,0<0 
此 外 , AA eA AAA SB, 例如 : 
e E ri 和 ko JERAR, 则 对 于 任意 正 数 7、?72,， 其 线性 组 合 


Viki 十 ?2K2 (6.25) 
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e Fr Ky 和 Ko 为 核 函 数 , WAZ EH ACY BAR 


K1 © Ko(x@, z) = K1(@, z)ko(x, z) (6.26) 


tH, AE FY pK BA; 
e AK, 为 核 函数 , 则 对 于 任意 函数 g(x), 


K(x, z) — g(x)K1 (£, z)g(z) (6.27) 
tH ze 7% PR BX. 
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在 前 面 的 讨论 中 , 我 们 一 直 假 定 训 练 样本 在 样本 空间 或 特征 空间 中 是 线性 
可 分 的 , 即 存在 一 个 超 平面 能 将 不 同类 的 样本 完全 划分 开 . 然而 , 在 现实 任务 
中 往往 很 难 确定 合适 的 核 函 数 使 得 训练 样本 在 特征 空间 中 线性 可 分 ; 退 一 步 说 ， 
即便 恰 好 找到 了 某 个 核 函 数 使 训练 集 在 特征 空间 中 线性 可 分 , 也 很 难 断 定 这 个 
貌似 线性 可 分 的 结果 不 是 由 于 过 拟 合 所 造成 的 . 

缓解 该 回 题 的 一 个 办 法 是 允许 文 持 问 量 机 在 一 些 样 本 上 出 错 . 为 此 , Be S| 
A. “Sx lal Ba” (soft margin) 的 概念 , 如 图 6.4 Aras. 


6.4 KARTER. 红色 图 出 了 一 些 不 满足 约 东 的 样本 . 


具体 来 说 , 前 面 介绍 的 文 持 疝 量 机 形式 是 要 求 所 有 样本 均 满足 约束 (6.3)， 
即 所 有 样本 都 必须 划分 正确 , 这 称 为 “ 硬 间 隔 ”(hard margin), 而 软 间隔 则 是 
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XP RAR A oe RY FE Ey Hk Oy 
变形 ,对 率 函 数 参 见 3.3 
节 ， 

XP EA A 函数 通常 表示 
为 fiog(-), 因此 式 (6.33) 把 
式 (3.15) 中 的 In(-) 改写 为 
log(-). 
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允许 某 些 样本 不 满足 约束 
yi(w ri +b) 21. (6.28) 


当然 , 在 最 大 化 间隔 的 同时 , 不 满足 约束 的 样本 应 尽 可 能 少 . 于 是 , 优化 目标 可 
BA 


> 1 — 
min slwl]? + CD fon (yi (wx; +b) 一 1) ， (6.29) 


其 中 C > 0 是 一 个 常数 , lo FE “O/1GRKR KB” 


l, ifz < 0; 
lo /1(2) 一 (6.30) 
0, otherwise. 


TA, 当 C 为 无 穷 大 时 , 式 (6.29) 迫 使 所 有 样本 均 满 足 约束 (6.28),， 于 是 
式 (6.29) 等 价 于 (6.6); 当 C 取 有 限 值 时 , 式 (6.29) 允 许 一 些 样 本 不 满足 约束 . 


然而 , Loz TEMS JEEE, 数学 性 质 不 太 好 , 使 得 式 (6.29) 不 易 直 接 求 解 . 于 
Fe, 人 人 们 通常 用 其 他 一 些 函 数 来 代 蕉 Loy, PRA “FANG” (surrogate loss). 
桩 代 损 失 函 数 一 般 具有 较 好 的 数学 性 质 , 如 它们 通常 是 凸 的 连续 函数 且 是 Lg 
的 上 界 . 图 6.5 给 出 了 三 种 常用 的 替代 损失 函数 : 


hinge 损失 : lninge(Z) = max(0, 1 — z) ; (6.31) 
指数 损失 (exponential loss): lezp(z)] = exp(—z) ; (6.32) 
xy #4 K (logistic loss): flog(z) = log(1 + exp(—z)) . (6.33) 


47 KW hinge 损失 , 则 式 (6.29) 变 成 


_ 1 一 
min zlwl? +C > max (0,1 — y (aoTzi 十 办) . (6.34) 


=Ï] 
引入 “松弛 变量 ”(slack variables) & > 0, 可 将 式 (6.34) 重 写 为 


.1 — 
min sllwll? +C) & (6.35) 


wb 
4=] 
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Cringe(2) = max(0, 1 — 2) bexp(2) = exp(—2) 


“a, 7 1 ， if 
Liog(z) = log(1 + exp(—z)) a bon (2) = | if z < : 


0, otherwise 


图 6.5 三 种 第 见 的 替代 损失 函数 : hinge 损 失 、 指 数 损 失 、 对 率 损 失 


s.t. yj(wa; +b) >1-&; 


& 20, a=1,2,...,m 


Ae A FAY) “Pee MSC EE SL” 

显然 , 式 (6.35) 中 每 个 样本 都 有 一 个 对 应 的 松弛 变量 , 用 以 表征 该 样本 不 满 
足 约 束 (6.28) 的 程度 . 但 是 , 与 式 (6.6) 相 似 , 这 仍 是 一 个 二 次 规划 问题 . 于 是 , 类 
似 式 (6.8), 通过 拉 格 明日 乘 子 法 可 得 到 式 (6.35) 的 拉 格 明日 函数 


1 一 
Zoo 和 = 了 lo 上 CD & 


i=l] 


+ ve (1 yi ( ws Ti + b) ) yp ; (6.36) 


+ 三 ] + 三 ] 


其 中 a; > 0, m > 0 ERLE BIA eT. 


w = ` iyii , (6.37) 
i=1 

0 = X ay l (6.38) 
i=1 


C = Qi + Hi. (6.39) 
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将 式 (6.37)-(6.39) 代 入 式 (6.36) 即 可 得 到 式 (6.35) 的 对 偶 问 题 


m m m 
— Sa; 要 NO X aiajyiyjx) x; (6.40) 
f—1 i—1 j=1 
m 
s.t. X aii =). 
i=1 
OSa aC, 1=1,2,...,m. 


将 式 (6.40) 与 硬 间 隔 下 的 对 偶 问 题 (6.11) 对 比 可 看 出 , 两 者 唯一 的 差别 就 在 
POZE SHAR A A]: 前 者 是 0 < ai < C0, 后 者 是 0 和 a. 于是, 可 采用 6.2 
廊 中 辐 样 的 算法 求解 式 (6.40); 在 引入 核 函 数 后 能 得 到 与 陈 (6.24) 同 样 的 广 持 回 
Fe Fe sk. 

FEAT (6.13), SRA BSH A) AL, KKT 条 件 要 求 

a 20, w2O0, 
yif(@i)—-14+& 20, 
as (yif (@,) —14+&) =0, 


& 20, mies = 0. 


(6.41) 


FÆ, 对 任意 训练 样本 (xiy), BRA ai = 0 My f(a) =1-&. Aa = 0, M 
该 样本 不 会 对 f(a) 有 任何 影响 ; 车 as > 0, WMA yf (wi) = 1-—&, 即 该 样本 
是 支持 向 量 : 由 式 (6.39) 可 知 , Ha; < C, Wy; > 0, HMA & = 0, 即 该 样本 
恰 在 最 大 间隔 边界 上 ; 若 ai = C, WA um = 0, 此 时 若 扣 和 过 1 则 该 样本 落 在 最 
大 间隔 内 部 , 若 &; > 1 则 该 样本 被 错误 分 类 . 由 此 可 看 出 , 软 间隔 支持 向 量 机 的 
最 终 模 型 仅 与 支持 向 量 有 关 , 即 通过 采用 hinge 损失 函数 仍 保持 了 稀 朴 性 . 

IBA, 能 和 否 对 式 (6.29) 使 用 其 他 的 替代 损失 函数 呢 ? 

可 以 发 现 , 如 果 使 用 对 率 损 失 函 数 Log ARTF AUK (6.29) FAY 0/1 损失 函数 ， 
则 几乎 就 得 到 了 对 率 回 归 模 型 (3.27). 实际 上 , 支持 向 量 机 与 对 率 回 归 的 优化 
目标 相近 , 通常 情形 下 它们 的 性 能 也 相当 . 对 率 回 归 的 优势 主要 在 于 其 输出 具 
有 自然 的 概率 意义 , 即 在 给 出 预测 标记 的 同时 也 给 出 了 概率 , 而 支持 向 量 机 的 
输出 不 具有 概率 意义 , 欲 得 到 概率 输出 需 进行 特殊 处 理 [Platt, 2000]; 此 外 , 对 
率 回 归 能 直接 用 于 多 分 类 任务 , 文 持 回 量 机 为 此 则 需 进 行 推广 [Hsu and Lin, 
2002]. 另 一 方面 , 从 图 6.5 可 看 出 , hinge 损失 有 一 块 “平坦 ”的 零 区 域 , 这 使 


6.5 ”支持 向量 回归 


传统 意义 上 的 “结构 风 
险 ” 是 指引 入 模型 结构 因 
素 后 的 总 体 风险 (或 许 更 
宜 译 为 “ 带 结构 风险 ”)， 
本 书 则 是 指 总 体 风 险 中 直 
接 对 应 于 模型 结构 因素 的 
部 分 , 这 样 从 字面 上 更 直 
UL, 或 有 助 于 理解 其 与 机 
器 学 习 中 其 他 内 容 间 的 联 
系 . 参见 p.160. 


正则 化 可 理解 为 一 种 
“ 罚 函数 法 ”， 即 对 不 希 
望 得 到 的 结果 施 以 惩罚 ， 
从 而 使 得 优化 过 程 趋向 于 
希望 目标 . 从 贝 叶 斯 估计 
的 角度 来 看 , 正则 化 项 可 
认为 是 提供 了 模型 的 先 验 
概率 . 


参见 11.4 节 . 
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得 支持 向 量 机 的 解 具有 稀疏 性 , 而 对 率 损失 是 光滑 的 单调 递减 函数 , 不 能 导出 
类 似 支持 向 量 的 概念 , 因此 对 率 回归 的 解 依赖 于 更 多 的 训练 样本 , 其 预测 开销 
更 大 


我 们 还 可 以 把 式 (6.29) 中 的 0/1 损失 函数 换 成 别 的 替代 损失 函数 以 得 到 
其 他 学 习 模 型 , 这 些 模型 的 性 质 与 所 用 的 替代 函数 直接 相关 , 但 它们 具有 一 
个 共性 : 优化 目标 中 的 第 一 项 用 来 描述 划分 超 平面 的 “间隔 ”大 小 , 另 一 项 
5 mL(f(zi), ys) 用 来 表述 训练 集 上 的 误差 , 可 写 为 更 一 般 的 形式 


min Qf) +O Rele) y), 
其 中 Of) 称 为 “结构 风险 ”(structural risk), 用 于 摘 述 模型 f MEE, 第 
TH EF (ai), yi) 称 为 “经 验 风 险 ”(empirical risk), 用 于 描述 模型 与 训练 
数据 的 契合 程度 ; C 用 于 对 二 者 进行 折 中 . 从 经 验 风险 最 小 化 的 角度 来 看 , O2(f) 
表述 了 我 们 和 希望 获得 具有 何 种 性 质 的 模型 (例如 希望 获得 复杂 上 度 较 小 的 模型 )， 
这 为 引入 领域 知识 和 用 户 意图 提供 了 途径 ; 男 一 方面 , 该 信息 有 助 于 削减 假设 
ZETE], 从 而 降低 了 最 小 化 训练 误差 的 过 拟 合 风险 . 从 这 个 角 虑 来 说 , 式 (6.42) 称 
A “EJE” (regularization) HÆ, Q) 称 为 正则 化 项 , C 则 称 为 正则 化 和 常数 . 
Lp 范 数 (norm) 是 第 用 的 正则 化 项 , 其 中 La 范 数 wl HIF w 的 分 量 取 值 
尽量 均衡 , 即 非 零 分 量 个 数 尽量 稠密 , 而 Lo 范 数 jlwllo A Ly FERC wll UHE r 
于 w 的 分 量 尽 量 稀疏 , 即 非 零 分 量 个 数 尽 量 少 . 


(6.42) 
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(2m,Ym)}, yi E R, 希望 学 得 一 个 形 如 式 (6.7) 的 回归 模型 , 使 得 f(a) Sy 尽 可 
能 接近 , w 和 器 是 待 确定 的 模型 参数 . 


对 样本 (x,y), 传统 回归 模型 通常 直接 基于 模型 输出 f(x) 与 真实 输出 y 之 
NAAR Aine, SAMS f(x) 与 y 完全 相同 时 , 损失 才 为 零 . 与 此 不 同 ， 
文 持 同 量 辐 归 (Support Vector Regression, 简称 SVR) 假 设 我 们 能 容忍 f(a) 与 
之 间 最 多 有 e 的 偏差 , 即 仅 当 f(x) 与 了 之 间 的 差别 绝对 值 大 于 e 时 才 计 算 损 
R. 如 图 6.6 所 示 , 这 相当 于 以 f(a) 为 中 心 , 构建 了 一 个 宽度 为 2e 的 间隔 带 , 者 
训练 样本 落 入 此 间隔 带 , 则 认为 是 被 预测 正确 的 . 
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图 6.6 支持 向 量 回归 示意 图 . 红色 显示 出 e- 间 隔 带 , 落 入 其 中 的 样本 不 计算 损失 . 


于 是 , SVR 问题 可 形式 化 为 


min 5 lw? +C >> E(f (ni) — vi) ， (6.43) 


?一 


其 中 C 为 正则 化 第 数 , L 是 图 6.7 所 示 的 e- 不 敏感 损失 (e-insensitive loss) 函数 


0, if |z| S< E€; 
te) ={ ‘ 


6.44 
|z| —e, otherwise. ( ) 


pd 引入 松弛 变量 &; 和 é, 可 将 式 (6.43) 重 写 为 


_ a , s 
min 5 llwil” +O (& + &;) 
w bE Ei =] 


(6.45) 


aJo ilse 
|z| —e, otherwise. 


6.7 ce- 不 敏感 损失 函数 
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s.t. f(@i)-yw<set+& , 
Wi — f(a) <€E+& , 


& 2 0, &,>0, ree 


FAAWS (6.36), ws | APR HA AES ui 三 0, Ai SO, ai È O0, Gi 2 0, 由 拉 
AS BY A eV HY FS BI Sh (6.45) AA BA H eR 


L(w, b, a, a, £, E, ps, Ò) 
1 :、 oS =i; 
= al + CSE oa) = SS pi&i 一 > Hk 
i=l i=] i=] 


+ S alf (zi) — yi — € — i) + X Gi (yi — f (wi) —e-&) . (6.46) 
i=l i=1 


将 式 (6.7) 代 入 , FES L(w, b, a, â, £, Ê, p, À) XI w, b, & AE, 的 偏 导 为 零 可 得 


m 
w= X _ (âi 一 ai)zmi ， (6.47) 
¿=l 
m 
0 = X _ (â; — ai), (6.48) 
a=1 
C = Qi + hi, (6.49) 
C = â; + fii x (6.50) 


将 式 (6.47)-(6.50) 代 入 式 (6.46), 即 可 得 到 SVR 的 对 偶 问 题 


max X yi (Gi —a;) — e(@; + ai) (6.51) 
"e = 
1 TTL _ _ 
-3 SOX (âi — ai) (âj — a) a} £j 
i=1 j=1 
s.t. $ (âi —a;) =0, 
i=1 


上 述 过 程 中 需 满足 KKT 条 件 , 即 要 求 
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oi(f (mi) —yw—e—&) =0, 
Gi(yi 一 (coi) 一 e 一 所) =0, 

(6.52) 
ana; = 0 , && =O, 


(C—a)& = 0 , (C — âi)& =0. 


可 以 看 出 , SARS fw) — yi — e- & = OW a; 能 取 非 零 值 , SARS 
yi — f (x:)— e -& = 0 N â; 能 取 非 零 值 . 换言之 , 仅 当 样 本 (xi, yi) 不 落 入 elf 
隔 带 中 , 相应 的 ai 和 as 才能 取 非 零 值 . 此 外 , 约束 Flzi) — yi — e — & = 0 和 
yi — f(x) —€ — & = 0 AABN REI, 因此 a; 和 a; 中 至 少 有 一 个 为 零 . 


将 式 (6.47) 代 入 (6.7), M) SVR 的 解 形 如 


f(x) = $ (â: — aijæfe +b. (6.53) 

i=1 
人 能 使 式 (6.53) 中 的 (âi — ax) AO 的 样本 即 为 SVR 的 支持 向 量 , 它们 必 落 在 
e- 间 隔 带 之 外 . 显然 , SVR 的 支持 向 量 仅 是 训练 样本 的 一 部 分 , 即 其 解 仍 具有 入 


由 KKT 条 件 (6.52) 可 看 出 , 对 每 个 样本 (xi, yi) 都 有 (C 一 os)&; = 0 H 
œil f (msi) — Yi 一 tC Ei) = 0. Tse, 在 得 到 人 后 ; AT U 一 Qi < C, 风 必 有 £i = 0, 
进而 有 


b=y+t+e— > (âj 一 az)zj mi . (6.54) 


7 三 1 
因此 , 在 求解 式 (6.51) 得 到 a; Ja, 理论 上 来 说 , 可 任意 选取 满足 0 < a; < C 的 样 
本 通过 式 (6.54) 求 得 b. 实践 中 常 采 用 一 种 更 鲁 棒 的 办 法 : 选取 多 个 (或 所 有 ) 满 
是 条 件 0 < a; < C 的 样本 求解 5b 后 取 平 均值 . 
若 考 虑 特征 映射 形式 (6.19), 则 相应 的 , 式 (6.47) 将 形 如 
w = 》 (ai -ai)g(zi) . (6.55) 


¿=l 


将 式 (6.55) 代 入 (6.19), 则 SVR 可 表示 为 


6.6 DiE 


EAH] [Schdlkopf and 
Smola, 2002], 其 中 用 到 了 
关于 实 对 称 和 矩阵 正定 性 充 
要 条 件 的 Mercer 定理 ， 


线性 判别 分 析 见 3.4 Fr, 
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fæ) = > (Gu — ai)s(zzi +b (6.56) 


1=1 


其 中 s(x; wj) = p(x) plx) ABA. 


6.6 核 方 法 


回顾 式 (6.24) 和 (6.56) 可 发 现 ， 给 定 训 练 样本 {(zli,z),(za,y2),...， 
(Em: Ymp A AS EMEN b, WIFE SVM 还 是 SVR, 学 得 的 模型 总 能 表 
7S BMA PRL (ac, zi) 的 线性 组 合 . 不 仅 如 此 , 事实 上 我 们 有 下 面 这 个 称 为 “ 表 
示 定 理 ”(representer theorem) 的 更 一 般 的 结论 : 


定理 6.2 (表示 定理 ) 令 卫 为 核 函 数 i& 对 应 的 再 生 核 希 尔 伯 特 空间 , |All 
表示 于 空间 中 关于 万 的 范 数 , 对 于 任意 单调 递增 函数 2 ; [0, 00] 一 及 和 任意 非 
ita BM £: R™ — [0, co], 优化 问题 


min F(h) = O(a) + £(h(x1), h(x2),-.-,h(aem)) (6.57) 

的 解 总 可 写 为 
h*(x) 一 >》 ayr(a, xi) . (6.58) 

i=l 


表示 定理 对 损失 函数 疫 有 限制 , 对 正则 化 项 9 仅 要 求 单调 递增 , 甚至 不 要 
‘SK O EAA, 意味 看 对 于 一 般 的 损失 函数 和 正则 化 项 , 优化 问题 (6.57) 的 最 优 
HE h* (ac) 都 可 表示 为 核 图 数 kæ, xi) 的 线性 组 合 ; 这 显示 出 核 图 数 的 巨大 威力 . 

人 们 发 展 出 一 系列 基于 核 函 数 的 学 习 方 法 , 统称 为 “ 核 方 法 ”(kernel 
methods). 最 常见 的 , 是 通过 “ 核 化 ”( 即 引入 核 函 数 ) 来 将 线性 学 习 器 拓展 为 
非 线 性 学 习 器 .下 和 面 我 们 以 线性 判别 分 析 为 例 来 演示 如 何 通 过 核 化 来 对 其 进 
行 非 线性 拓展 , 从 而 得 到 “ 核 线性 判别 分 析 ” (Kernelized Linear Discriminant 
Analysis, faj#K KLDA). 


我 们 先 假 设 可 通过 某 种 映射 o: X 忆 下 将 样本 映射 到 一 个 特征 空间 下 , 然 
后 在 正 中 执 行 线性 判别 分 析 , 以 求 得 


h(x) = wi (a) . (6.59) 
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类 似 于 式 (3.35), KLDA 的 学 习 目 标 是 


wi Sew 


j 6.60 
wits? w ( ) 


max J(w) = 


其 中 S? 和 S$ 分 别 为 训练 样本 在 特征 空间 正中 的 类 间 散 度 矩 阵 和 类 内 散 
FERRE. 令 Xi 表示 第 ? E {0,1} 类 样本 的 集合 , 其 样本 数 为 rnii 总 样本 数 
m = mo + mi. 第 i 类 样本 在 特征 空间 下 中 的 均值 为 


1 = > oe), (6.61) 
. we xX, 
PRS CE FB RE Sp Bll A 
SP = (pf — pO) (09 — pẹ)” ; (6.62) 
1 
s$ =X X (d(x) — u$) (læ) — we)” . (6.63) 
i=0 2EX; 


通常 我 们 难以 知道 映射 $ 的 具体 形式 , 因此 使 用 核 函 数 k(z,zi) = 
bzi)Td(z) 来 隐 式 地 表达 这 个 映射 和 特征 空间 FF， 把 (ww) 作为 式 (6.57) 中 
的 损失 函数 4, 再 令 9 = 0, 由 表示 定理 , 函数 h(a) 可 写 为 


h(x) = > ci 上 (下 £i), (6.64) 
i=1 
于 是 由 式 (6.59) 可 得 | 
w = Ñ` aip(ai) . (6.65) 
i=1 


S K e ROT HIRA « PPT VA A FERS, (K); = n(x rj). SLE 
{1,0}"*! 为 第 i 类 样本 的 指示 向 量 , BP 1 的 第 7 个 分 量 为 1 当 且 仅 当 zj € Xi, 
否则 1; 的 第 7 个 分 量 为 0. 再 令 


1 
7 — K1 6.66 
Ho mo 0; ( ) 


SR. (6.67) 
Thy 


fry 
M = (ĝo — ft1) (fo — fa)” ， (6.68) 


6.7 阅读 材料 


求解 方法 参见 3.4 节 ， 


线性 核 SVM 36 4°45 
文本 分 类 的 首选 技术 .一 
小 重要 原因 可 能 是 : AF 
每 个 单词 作为 文本 数据 的 
一 个 属性 ， 则 该 属性 空间 
维 数 很 高 , 宛 余 度 很 大 ,其 
描述 能 力 足 以 特 不 同文 档 

“ 打 散 ”. 关于 打 散 , 参见 
12.4 7, 


m 是 样本 个 数 ， 
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1 
N 一 KKT — mpi (6.69) 
~=0 
于 是 , 式 (6.60) 等 价 为 
a Ma | 
max J(a) = TN ° (6.70) 


显然 , 使 用 线性 判别 分 析 求 解 方法 即 可 得 到 a, 进而 可 由 式 (6.64) 得 到 投影 
函数 h(æ). 


6.7 阅读 材料 


支持 向 量 机 于 1995 年 正式 发 表 [Cortes and Vapnik, 1995], 由 于 在 文本 分 
类 任务 中 显示 出 卓越 性 能 [Joachims, 1998], 很 快 成 为 机 器 学 习 的 主流 技术 , 并 
HEMET “Ark” (statistical learning) 在 2000 年 前 后 的 高 济 . 但 实际 
E, 支持 向 量 的 概念 早 在 二 十 世纪 六 十 年 代 就 已 出 现 , 统计 学 习 理 论 在 七 十 年 
代 就 已 成 型 . 对 核 函 数 的 研究 更 早 , Mercer 定理 [Cristianini and Shawe-Taylor, 
2000] FJ 16 i] 2) 1909 Æ, RKHS 则 在 四 十 年 代 就 已 被 研究 , 但 在 统计 学 习 兴 
后 , 核 技巧 才 真 正成 为 机 器 学 习 的 通用 基本 技术 . 关于 支持 向 量 机 和 核 方法 有 
很 多 专门 书籍 和 介绍 性 文章 [Cristianini and Shawe-Taylor, 2000; Burges, 1998; 
邓 乃 扬 与 HZ, 2009; Schdlkopf et al., 1999; Schölkopf and Smola, 2002], 统 
计 学 习 理 论 则 可 参阅 [Vapnik, 1995, 1998, 1999). 

支持 向 量 机 的 求解 通常 是 借助 于 凸 优 化 技术 [Boyd and Vandenberghe, 
2004]. 如 何 提 高 效率 , 使 SVM 能 适用 于 大 规模 数据 一 直 是 研究 重点 . 对 线性 核 
SVM 已 有 很 多 成 果 , SEF HIF YE (cutting plane algorithm) 的 SVMPert 
具有 线性 复杂 度 [Joachims, 2006], 基于 随机 梯度 下 降 的 Pegasos 速度 甚至 更 
快 [Shalev-Shwartz et al., 2011], 而 坐标 下 降 法 则 在 稀 玖 数据 上 有 很 高 的 效率 
[Hsieh et al., 2008]. 非 线 性 核 SVM 的 时 间 复 杂 度 在 理论 上 不 可 能 低 于 O(m’), 
因此 研究 重点 是 设计 快速 近似 算法 , 如 基于 采样 的 CVM [Tsang et al., 2006]、 
基于 低 秩 通 近 的 Nystrom 方法 [Williams and Seeger, 2001]、 基 于 随机 传 里 叶 
特征 的 方法 [Rahimi and Recht, 2007] 等 . 最 近 有 研究 显示 , 当 核 矩阵 特征 值 有 
很 大 差别 时 , Nystrom 方法 往往 优 于 随机 健 里 时 特征 方法 [Yang et al., 2012]. 

文 持 回 量 机 是 针对 二 分 类 任务 设计 的 , 对 多 分 类 任务 要 进行 专门 的 推广 
[Hsu and Lin, 2002], 对 带 结 构 输 出 的 任务 也 已 有 相应 的 算法 [Tsochantaridis 
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一 致 性 亦 称 “相合 性 ”， 
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et al., 2005]. 3¢ FF Ih) Bt E a AY WF 3t 48 F [Drucker et al., 1997], [Smola and 
Schélkopf, 2004] 给 出 了 一 个 较为 全 面 的 介绍 . 

核 函 数 直 接 决 定 了 支持 回 量 机 与 核 方 法 的 最 终 性 能 , 但 遗憾 的 是 , F eK BL 
的 选择 是 一 个 未 次 问题 . 多 核 学 习 (multiple kernel learning) 使 用 多 个 核 函 数 并 
通过 学 习 获 得 其 最 优 凸 组 合作 为 最 终 的 核 函 数 [Lanckriet et al., 2004; Bach et 
al., 2004], 这 实际 上 是 在 借助 集成 学 习 机 制 . 

奉 代 损失 函数 在 机 器 学 习 中 被 广泛 使 用 ， 但 是 , 通过 求解 替代 损失 
函数 得 到 的 是 否 仍 是 原 问 题 的 解 ? 这 在 理论 上 称 为 替代 损失 的 “一 臻 
PE” (consistency) ja] 24. [Vapnik and Chervonenkis, 1991] 给 出 了 基于 百代 损 
失 进 行经 验 风 险 最 小 化 的 一 致 性 充 要 条 件 , [Zhang, 2004] WEH SJL aS he 
代 损 失 函 数 的 一 致 性 . 

SVM 已 有 很 多 软件 包 , 比较 著名 的 有 LIBSVM [Chang and Lin, 2011] 和 
LIBLINEAR [Fan et al., 2008] 等 . 


习题 


习题 
6.1 


LIBSVM JL http://www. 6.2 
csie.ntu.edu.tw/~cjlin/libsvm/. 

西瓜 数据 集 3.0a IL p.89 
的 表 4.5. 

UCI 数据 集 见 6.3 
http: / /archive.ics.uci.edu/ml/. 


6.10* 
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试 证 明 样 本 空间 中 任意 点 x 到 超 平 面 (w, b) 的 距离 为 式 (6.2). 


试 使 用 LIBSVM, 在 西瓜 数据 集 3.0a 上 分 别 用 线性 核 和 高 斯 核 训练 
一 个 SVM, #ER sc FF A Be el]. 


选择 两 个 UCI 数据 集 , 分 别 用 线性 核 和 高 斯 核 训 练 一 个 SVM, 并 与 
BP 神经 网 络 和 C4.5 决策 树 进 行 实验 比较 . 


试 讨论 线性 判别 分 析 与 线性 核 支持 向 量 机 在 何 种 条 件 下 等 价 . 
试 述 高 斯 核 SVM 5 RBF 神经 网 络 之 间 的 联系 . 

试 析 SVM 对 噪声 敏感 的 原因 . 

试 给 出 式 (6.52) 的 完整 KKT 条 件 . 


以 西瓜 数据 集 3.0a 的 “密度 ”为 输入 ,，“ 售 糖 率 ”为 输出 , 试 使 用 
LIBSVM 训练 一 个 SVR. 


试 使 用 核 技 巧 推广 对 率 回 归 , 产生 “核对 率 回 归 ”. 


试 设计 一 个 能 显著 减少 SVM 中 支持 向 量 的 数目 而 不 显著 降低 泛 化 性 
能 的 方法 
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休息 一 会 儿 


SVM 的 确 与 神经 网 络 有 
密切 联系 : 车 将 隐 层 神经 
元 数 设置 为 训练 样本 数 ， 
LA 4 E FE AR RT 
个 神经 元 中 心 ， 则 以 高 斯 
径 向 基 函 数 为 激活 函数 的 
RBF 网 络 ( 套 见 5.5.1 节 ) 恰 
与 高 斯 核 SVM 的 预测 函 
数 相 同 . 
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小 故事 : 统计 学 习 理 论 之 父 弗 拉 基 米尔 , 瓦 普 尼克 

弗 拉 基 米 尔 。 瓦 普 尼 克 (Vladimir N. Vapnik, 1936— ) 
是 杰出 的 数学 家 、 统 计 学 家 、 计 算 机 科学 家 . 他 出 生 于 苏 
HK, 1958 年 在 鸟 兹 别克 国立 大 学 获 数 学 硕士 学 位 , 1964 年 
在 莫斯科 控制 科学 学 院 获 统计 学 博士 学 位 , 此 后 一 直 在 该 校 
工作 并 担任 计算 机 系 主任 . 1990 年 (苏联 解体 的 前 一 年 ) 他 
离开 苏联 来 到 新 泽 西 州 的 美国 电话 电报 公司 贝尔 实验 室 工作 , 1995 FART 
最 初 的 SVM 文章 . 当时 神经 网 络 正 当红 , 因此 这 篇 文章 被 权威 期 刊 Machine 
Learning 要 求 以 “支持 向 量 网 络 ” 的 名 义 发 表 . 

实际 上 , 瓦 普 尼 克 在 1963 年 就 已 提出 了 支持 向 量 的 概念 , 1968 Fie 5 A 
一 位 苏联 数学 家 A. Chervonenkis 提出 了 以 他 们 两 人 的 姓氏 命名 的 “VC 维 ”， 
1974 年 又 提出 了 结构 风险 最 小 化 原则 , 使 得 统计 学 习 理 论 在 二 十 世纪 七 十 年 代 
就 已 成 型 . 但 这 些 工 作 主要 是 以 俄 文 发 表 的 , 直到 瓦 普 尼克 随 着 东欧 剧变 和 苏 
联 解体 导致 的 苏联 科学 家 移民 潮 来 到 美国 , 这 方面 的 研究 才 在 西方 学 术 界 引起 
重视 , 统计 学 习 理 论 、 支 持 向 量 机 、 核 方法 在 二 十 世纪 末 大 红 大 紫 . 

瓦 曾 尼克 2002 年 离开 美国 电话 电报 公司 加 入 普林斯顿 的 NEC 实验 室 ， 
2014 年 加 盟 脸 书 (Facebook) 公 司 人 工 管 能 实验 室 . 1995 年 之 后 他 还 在 伦敦 大 
学 、 哥 伦比 亚 大 学 等 校 任 教授 . 据说 瓦 普 尼克 在 苏联 根据 一 本 字典 自学 了 英语 
及 其 发 音 . 他 有 一 句 名 言 被 广 为 传 诵 : “Nothing is more practical than a good 
theory.” 


决策 论 中 将 “期 望 损 
k” 称 为 “风险 ” (risk) . 


SEIR ER PEF 0/1 损失 
AA, BIL oË. 
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7.1 贝 叶 斯 决策 论 


Wty AR wE (Bayesian decision theory) 是 概率 框架 下 实施 决策 的 基本 方 
法 . 对 分 类 任务 来 说 , 在 所 有 相关 概率 都 已 知 的 理想 情形 下 , 贝 叶 斯 决策 论 考虑 
如 何 基 于 这 些 概率 和 误 判 损失 来 选择 最 优 的 类 别 标记 .下面 我 们 以 多 分 类 任务 
为 例 来 解释 其 基本 原理 . 

假设 有 NN 种 可 能 的 类 别 标 记 , BOY = {c1,c2,...,en}, Ay 是 将 一 个 真实 
标记 为 cj 的 样本 误 分 关 为 ci 所 产生 的 损失 . 基于 后 验 概 率 P(ci | zx) 可 获得 将 
样本 a 分 类 为 ci 所 产生 的 期 望 损失 (expected loss), 即 在 样本 a 上 的 “条 件 风 


险 ”(conditional risk) 


N 
R(ci | x) = > XizP(cr | £) - (7.1) 


j=l 
我 们 的 任务 是 寻找 一 个 判定 准则 于 :二 Yy UME AEA 
R(h) = Ez |R (R (æ) | æ) | . (7.2) 


显然 , 对 每 个 样本 x, 硅 h 能 最 小 化 条 件 风险 R(h(æ) | x), 则 总 体 风 险 RR(h) 也 
将 被 最 小 化 .这 束 产 生 了 见 叶 斯 判定 准则 (Bayes decision rule): 为 最 小 化 总 体 
风险 , 只 需 在 每 个 样本 上 选择 那个 能 使 条 件 风 险 ER(c | x) 最 小 的 类 别 标记 ， 即 


h*(x) = arg min R(c | a) , (7.3) 
cEY 
此 时 , h* 称 为 贝 叶 斯 最 优 分 类 兹 (Bayes optimal classifier), 与 之 对 应 的 轧 体 风 


险 RR(h*) 称 为 贝 叶 斯 风险 (Bayes risk). 1 一 R(h*) 友 瞻 了 分 类 器 所 能 达到 的 最 
好 性 能 , 即 通 过 机 器 学 习 所 能 产生 的 模型 精度 的 理论 上 限 . 


具体 来 说 , 若 目 标 是 最 小 化 分 类 错误 率 , 则 误 判 损失 Xij 可 写 为 
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注意 , 这 只 是 从 概率 框 
架 的 角度 来 理解 机 器 学 习 ; 
事实 上 很 多 机 器 学 习 技 术 
无 须 准 确 估计 出 后 验 概率 
就 能 准确 进行 分 类 . 


P(x) 对 所 有 类 标记 均 
相同 ， 


为 便于 讨论 , 我 们 假设 
所 有 属性 均 为 离散 型 . 对 
连续 属性 , 可 将 概率 质量 
函数 PUO 换 成 概率 密度 函 
3k p(-). 


7m WAR 


w= (74) 
此 时 条 件 风 险 
R(clz)=1- P(ec|z), (7.5) 
TE, 最 小 化 分 类 钳 误 率 的 贝 叶 斯 最 优 分 类 器 为 
(7.6) 


h* (ae) = arg max P(c | æ), 
cEY 


即 对 每 个 样本 oc, 选择 能 使 后 验 概 率 P(c | z) 最 大 的 类 别 标 记 . 

不 难看 出 , 售 使 用 见 叶 斯 判定 准则 来 最 小 化 决策 风险 , 首先 要 获得 后 验 概 
# Plc | a). JAM, 在 现实 任务 中 这 通 津 难以 直接 获得 .从 这 个 角度 来 看 , 机 
器 和 学习 所 要 实现 的 是 基于 有 限 的 训练 样本 集 尽 可 能 准确 地 估计 出 后 验 概率 
P(e | a). 大 体 来 说 , 主要 有 两 种 策略 : 给 定 a, 可 通过 直接 建 模 P(c | x) 来 
预测 c, 这 样 得 到 的 是 “判别 式 模 型 ”(dqiscriminative models); 也 可 先 对 联合 
概率 分 布 Plx, c) 建 模 , 然后 再 由 此 获得 P(c | x), 这 样 得 到 的 是 “生成 式 模 
型 ”(generative models). 显然 , 前 面 介绍 的 决策 树 、BP HAZARN wE 
机 等 , 都 可 归 入 判别 式 模 型 的 范畴 . 对 生成 式 模型 来 说 , 必然 考虑 


je — (7.7) 
基于 贝 叶 斯 定理 , P(c | x) JSA 
Pie) = ae f (7.8) 


其 中 , P(c) A “FEM” (prior) ME; P(æ | c) 是 样本 zz 相对 于 类 标记 c 的 类 
条 件 概 率 (class-conditional probability), 或 称 为 “ 似 然 ”(likelihood); P(x) 是 
用 于 归 一 化 的 “证 据 ”(evidence) 因 子 . 对 给 定 样 本 xz, 证 据 因 子 P(z) 与 类 标 
WACK, 因此 估计 P(e | æ) 的 问题 就 转化 为 如 何 基 于 训练 数据 D 来 估计 先 验 
P(c) 和 似 然 P(x | c). 

类 先 验 概率 P(e) 表达 了 样本 空间 中 各 类 样本 所 占 的 比例 , 根据 大 数 定律 ， 
当 训 练 集 包含 充足 的 独立 同 分 布 样本 时 ，P(c) 可 通过 各 类 样本 出 现 的 频率 来 进 
行 估计 . 

对 类 条 件 概 率 P(x | c) 来 说 , 由 于 它 涉及 关于 x 所 有 属性 的 联合 概率 , 直 


7.2 极 大 似 然 估 计 


参见 7.3 节 . 


连续 分 布下 为 概率 密度 
Fk plæ | c). 


从 二 十 世纪 二 三 十 年 代 
开始 出 现 了 频率 主义 学 
派 和 贝 叶 斯 学 派 的 争论 ， 
至 今 仍 在 继续 . 两 派 在 很 
多 重要 问题 上 观点 不 同 ， 
甚至 在 对 概率 的 基本 解 
释 上 就 有 分 歧 . 有 兴趣 的 
读者 可 参阅 [Efron, 2005; 
Samaniego, 2010]. 


亦 称 “ 极 大 似 然 法 ”. 
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接 根 据 样 本 出 现 的 频率 来 估计 将 会 遇 到 严重 的 困难 . 例如 , 假设 样本 的 a 个 属 
性 都 是 二 值 的 , 则 样本 空间 将 有 20 种 可 能 的 取 值 , 在 现实 应 用 中 , 这 个 值 往往 
远大 于 训练 样本 数 m, 也 就 是 说 , 很 多 样本 取 值 在 训练 集中 根本 没有 出 现 , 直 
接 使 用 频率 来 估计 P(zw | c) 显然 不 可 行 , 因为 “未 被 观测 到 ”与 “出 现 概率 为 
和 零 ” 通 常 是 不 同 的 . 


7.2 极 大 似 然 估计 


估计 类 条 件 概 率 的 一 种 常用 策略 是 先 假 定 其 其 有 某 种 确定 的 概率 分 布 形 
式 , 再 基于 训练 样本 对 概率 分 布 的 参数 进行 估计 . 具体 地 , 记 关 于 类 别 c 的 类 条 
件 概率 为 P(x |c), 假设 P(x | c) 具有 确定 的 形式 并 且 被 参数 问 量 O, 唯一 确定 ， 
则 我 们 的 任务 就 是 利用 训练 集 DD 估计 参数 9.. 为 明确 起 见 , 我 们 将 P(x | c) id 
为 P(x | 8e). 

事实 上 , 概率 模型 的 训练 过 程 就 是 参数 估 tT (parameter estimation) 过 程 . 
对 于 参数 估计 , 统计 学 界 的 两 个 学 派 分 别提 供 了 不 同 的 解决 方案 : 频率 主义 学 
派 (Frequentist) 认 为 参数 虽然 未 知 , 但 却 是 客观 存在 的 固定 值 , 因此 , 可 通过 优 
化 似 然 函数 等 准则 来 确定 参数 值 ， 见 叶 斯 学 派 (Bayesian) 则 认为 参数 是 未 观察 
到 的 随机 变量 , 其 本 身 也 可 有 分 布 , 因此 , 可 假定 参数 服从 一 个 先 验 分 布 , 然后 
基于 观测 到 的 数据 来 计算 参数 的 后 验 分 布 . 本 节 介 绍 源 目 频率 主义 学 派 的 极 大 
似 然 估 计 (Maximum Likelihood Estimation, 简称 MLE), 这 是 根据 数据 采样 来 
估计 概率 分 布 参数 的 经 典 方法 . 

S De 表示 训练 集 DD PE e 类 样本 组 成 的 集合 , 假设 这 些 样本 是 独立 同 分 
AGA, 则 参数 9. 对 于 数据 集 De 的 羽 然 是 

P(De |8) = || P(x|@-) . (7.9) 
reD, 

对 9。 进行 极 大 似 然 估计 , 就 是 去 寻找 能 最 大 化 似 然 P(D。 | 9.) 的 参数 值 9.. 直 
MEA, 极 大 似 然 估计 是 试图 在 O. 所 有 可 能 的 取 值 中 , 找到 一 个 能 使 数据 出 现 
的 “可 能 性 ”最 大 的 值 . 

式 (7.9) 中 的 连 乘 操作 吻 造 成 下 洲 , 通常 使 用 对 数 似 然 (log-likelihood) 


LL(6@.) = log P(De | @c) 
= > log P(x | 8e) , (7.10) 


TED. 
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N 为 正 态 分 布 , 参见 附 
录 C.1.7. 


SRF AT FR a EAR BE 
估计 联合 概率 , 在 计算 上 
将 会 遭遇 组 合 爆 炸 问 题 ， 
在 数据 上 将 会 遭遇 样本 黎 
IPI, 属性 数 越 多 , 问题 
越 严 重 . 


第 7 章 贝 叶 斯 分 类 器 
此 时 参数 9。 的 极 大 似 然 估计 Ôe 为 
Ô. = arg max LL(@,) . (7.11) 
Oe 


例如 , 在 连续 属性 情形 下 , 假设 概率 密度 函数 pæ | c) ~ N (ue 02), 则 参数 
He 和 oz 的 极 大 似 然 估计 为 


1 
fic = Dal `S £, (7.12) 
ix rel, 
1 、 、 
GE = 7p > (@ — fae) (@ — fe)” . (7.13) 
|De] EP. 


也 就 是 说 , WL IE AR ACA AR E FS BY TE S Ot Ais EY (it EAE, D7 Ae i ze 
(x 一 ft-)(a@ — À) 的 均值 , 这 显然 是 一 个 符合 直觉 的 结果 . 在 离散 属性 情形 下 ， 
也 可 通过 类 似 的 方式 估计 类 条 件 概率 . 

再 注意 的 是 , 这 种 参数 化 的 方法 虽 能 使 类 条 件 概率 估计 变 得 相对 简单 , 但 
估计 绪 斥 的 惟 确 性 严重 依赖 于 所 假设 的 概率 分 布 形式 是 否 符合 淤 在 的 真实 数 
据 分 布 . 在 现实 应 用 中 , 欲 做 出 能 较 好 地 接近 潜在 其 实 分 布 的 假设 , 往往 需 在 一 
定 程度 上 利用 关于 应 用 任务 本 身 的 经 验 知 识 , 否则 者 仅 竺 “ 狂 测 ”来 假设 概率 
分 布 形式 , 很 可 能 产生 误导 性 的 结果 . 


7.3 朴素 贝 叶 斯 分 类 器 


不 难 发 现 , 基于 贝 叶 斯 公式 (7.8) 来 估计 后 验 概率 P(e | ac) 的 主要 困难 在 于 : 
类 条 件 概率 Pla | c) 是 所 有 属性 上 的 联合 概率 , 难以 从 有 限 的 训练 样本 直接 
估计 而 得 . 为 避 开 这 个 障碍 , 朴素 贝 叶 斯 分 类 器 (naive Bayes classifier) 采 用 了 
“ 届 性 条 件 独 并 性 假设 ”(attribute conditional independence assumption): 对 
已 知 类 别 , 假设 所 有 属性 相互 独立 . 换言之 , 假设 每 个 属性 独立 地 对 分 类 结果 发 
生 影响 . 
基于 属性 条 件 独 立 性 假设 , ZK (7.8) A BG 


P(c) Pl(w |c) Pe) 


d 
Ple|2)= P(x) = Pe) LP: |e), (7.14) 


7.3 朴素 贝 叶 斯 分 类 器 


MH” 对， 例如 “E 
泽 二 青绿 ”.， 为 便于 讨论 ， 
在 上 下 文明 确 时 ， 有 了 时 我 
们 用 n 表示 第 这 个 属性 
对 应 的 变量 (如 “色泽 ”)， 
有 时 直接 用 其 指 代 a 在 第 
i 个 属性 上 的 取 值 (如 “ 青 
绿 ”). 


西瓜 数据 集 3.0 JL p.84 
表 4.3. 
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其 中 a 为 属性 数目 , zi 为 zx 在 第 i 个 属性 上 的 取 值 . 
由 于 对 所 有 类别 来 说 P(xz) 相同 , 因此 基于 式 (7.6) 的 贝 叶 斯 判定 准则 有 


jna(m) = arg max P(e) [I Pie: |c), (7.15) 
E i=1 
这 就 是 朴素 贝 叶 斯 分 类 器 的 表达 式 . 
显然 , 朴素 贝 叶 斯 分 类 器 的 训练 过 程 就 是 基于 训练 集 D 来 估计 类 先 验 概率 
P(c), 并 为 每 个 属性 佑 计 条 件 概率 已 (zi | c). 
令 De 表示 训练 集 D 中 第 c 类 样本 组 成 的 集合 , 知 有 充足 的 独立 同 分 布 样 
AS, 则 可 容易 地 估计 出 类 先 验 概率 


Del 


Plc) = 而 . 


(7.16) 


对 离散 属性 而 言 , 令 Den 表示 De 中 在 第 i 个 属性 上 取 值 为 x; 的 样本 组 成 的 
集合 , 则 条 件 概率 P(x; | c) 可 估计 为 


| Dex; | 


P(x: | 0) = Be 
C 


(7.17) 


对 连续 属性 可 考虑 概率 密度 函数 , 假定 p(zi |c) ~ N (heis 025), 其 中 pei 和 ci 
分 别 是 第 c 类 样本 在 第 i 个 属性 上 取 值 的 均值 和 方差 , 则 有 


1 Ly — i 2 
p(x; | c) = Tran, exp -Ea . (7.18) 


[1 


下 面 我 们 用 西瓜 数据 集 3.0 训练 一 个 椒 素 贝 叶 斯 分 类 器 , 对 测试 例 “ 测 
1” 进 行 分 类 : 


编号 GF WF WP ABR AR WE EO HET. 
测 1 青绿 OES A 清晰 e 便 谓 0.697 0.460 l 


B14 RCE P(c), BAA 
P(A = 是) = 二 A 0.471 , 


已 (好 瓜 = 7) = 2 ~ 0.529 . 
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注意 ， 当 样本 数目 足够 
多 时 才能 进行 有 意义 的 概 
Be. 本 书 仅 是 以 西瓜 
数据 集 3.0 对 估计 过 程 做 
一 个 简单 的 演示 . 


第 7 章 ” 贝 时 斯 分 类 器 


然后 , 为 每 个 属性 估计 条 件 概 率 已 (zi |e): 


Prg = 已 (色泽 = 青绿 | 好 瓜 = 是 ) = = = 0.375 , 
Psg = P(E = 青绿 | 好 瓜 = F) = = æ 0.333 , 
Pame = PORI = WEAR | WEIR = 是 ) = > = 0.625 ， 
Pag = PAR = keta | 好 瓜 = FF) = 5 =~ 0.333 , 
Pype = PORE = Ah | 好 瓜 = 是 ) = 2 = 0.750 , 
Panz = PÈRE = 浊 响 | 好 瓜 = 否 ) = = sada. 
六 清晰 | 是 = PEHE = 清晰 | 好 瓜 = 是 ) = 一 0.875 , 
Pame = PSE = 清晰 | 好 瓜 = F) = 3 ~ 0.222 , 
Pue = P( 脐 部 = 凹陷 | 好 瓜 = 是 ) = Ê = 0.750 , 
Pu 看 = PORR = MING | 好 瓜 = E) = = ~ 0.222, 
Pape = 了 (触感 = WEP | 好 瓜 = 是 ) = > = 0.750 , 
Pga = P( 触 感 = MI | 好 瓜 = 否 ) = g =~ 0.667 , 


Pæ: 0.697| 是 = P(A = 0.697 | 好 瓜 = 是 ) 

7 1 a (0.697 — 0.574)? 
~ an 0129 P 2 . 0.1292 
PÆ: 0.697| 否 一 p( FRE = 0.697 | 好 瓜 = FF) 

E 1 oxp ( — 0:697 — 0.496)? 

Vn. 0.195 P” 2 . 0.1952 
Pas: 0.460| 是 = P(A = 0.460 | 好 瓜 = 是 ) 


1 (0.460 — 0.279)? 
V27 - 0.101 2 - 0.101? 


pap: 0.460| 否 = P( 含 糖 率 = 0.460 | 好 瓜 = F) 


_ mw (0.460 — 0.154)? 
V27 - 0.108 2 - 0.108? 


= 1.959 , 


= 1.203 , 


= 0.788 , 


— “Wee” Ne 
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于 是 , 有 


已 (好 瓜 = 是 ) x 已 5 X Pega X Prg X P . X Pupe 
meen seen 青绿 | 是 缩 | 是 向 | 清晰 | 是 陷 | 是 
ARR HER” HALA x Prise). X Pnr. .XX p&i. . = 0.063 , 
“< 连 加 ” 以 避免 数值 下 洪 . 天 
已 (好 瓜 = T) x Paga X Pegs X Paas X Pamas X Puea 


n Pma xX 也 密度 : 0.6976 X Pa: 0.460| 否 ~ 6.80 x 10 “~. 


由 于 0.063 > 6.80 x 107°, 因此 , 朴素 贝 叶 斯 分 类 器 将 测试 样本 “ 测 1” 判 别 为 
“TFT” i 

需 注 意 , 若 某 个 属性 值 在 训练 集中 没有 与 基 个 类 同时 出 现 过 , 则 直接 基于 
式 (7.17) 进 行 概率 估计 , 再 根据 式 (7.15) 进行 判别 将 出 现 问 题 . 例如 , 在 使 用 西 
瓜 数 据 集 3.0 训练 朴素 贝 叶 斯 分 类 器 时 , KIS “RR He” MWB, 有 

Pape = PRE = 清脆 | HR = 是 ) = = =0, 
由 于 式 (7.15) 的 连 乘 式 计算 出 的 概率 值 为 零 , 因此 , 无 论 该 样本 的 其 他 属性 是 什 
A, 哪怕 在 其 他 属性 上 明显 像 好 瓜 , 分 类 的 结果 都 将 是 “好 瓜 = 否 ”, 这 显然 不 
KEM. 

为 了 避免 其 他 属性 携带 的 信息 被 训练 集中 未 出 现 的 属性 值 “ 抹 去 ”， 
在 估计 概率 值 时 通常 要 进行 “平滑 ”(smoothing)， 常 用 “ 拉 普 拉 斯 修 
iE” (Laplacian correction). 具体 来 说 , S N #AN Vil Be D PU fe HIA y 
a, Ni 表示 第 i 个 属性 可 能 的 取 值 数 , 则 式 (7.16) 和 (7.17) 分 别 修正 为 


a — |De|+1 a 
p | a |IDe,z; | ae 
P(x; | c) = Del EN: N; ` (7.20) 
例如 , 在 本 节 的 例子 中 , 类 先 验 概率 可 估计 为 
Sim my 8+1 A 9+1 
POFA = 2) = izg © 0.474 | POEM = F) = i73 ~ 0.526 . 
类 似 地 ，Pg 如 是 和 有 Ps 如 天 可 估计 为 
r = | 3+ 1 
Pame = 户 (色泽 = 青绿 | 好 瓜 = 是 ) = > ~ 0.364 | 
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拉 普 拉 斯 修正 实质 上 假 
设 了 属性 值 与 类 别 均匀 分 
At, 这 是 在 朴素 贝 叶 斯 学 
习 过 程 中 额外 引入 的 美 于 


懒惰 学 习 参 见 10.1 节 . 


hee DAIL 5.5.2 7. 


7m WAH 


Pyg = 了 (色泽 = 青绿 | 好 瓜 = F) = — ~ 0.333 . 
同时 , 上 文 提 到 的 概率 二 清脆 | 是 可 估计 为 
. aa a 0+1 


显然 , 拉 普 拉 斯 修正 避免 了 因 训 练 集 样 本 不 充分 而 导致 概率 佑 值 为 零 的 问题 ， 
并 且 在 训练 集 变 大 时 , 修正 过 程 所 引入 的 先 验 (prior) 的 影响 也 会 逐渐 变 得 可 和 忽 
We, 使 得 估 值 渐 趋 向 于 实际 概率 值 . 

在 现实 任务 中 朴素 贝 叶 斯 分 类 器 有 多 种 使 用 方式 . 例如 , er EH OT FH 
EERE rey, 则 对 给 定 训 练 集 , 可 将 朴素 贝 叶 斯 分 类 器 涉及 的 所 有 概率 估 值 事 
先 计 算 好 存储 起 来 , 这 样 在 进行 预测 时 只 需 “ 查 表 ” 即 可 进行 判别 ; AEH BL 
据 更 替 频 繁 , 则 可 采用 “懒惰 学 习 ”(lazy learning) 方式 , 先 不 进行 任何 训练 ， 
竺 收 到 预测 请 求 时 再 根据 当前 数据 集 进 行 概率 估 值 ; 奉 数据 不 断 增加 , 则 可 在 
现 有 估 值 基础 上 , 仅 对 新 增 样 本 的 属性 值 所 涉及 的 概率 佑 值 进 行 计数 修正 即 可 
实现 增 量 学 习 . 


7.4 半 朴 素 贝 叶 斯 分 类 器 


为 了 降低 贝 叶 斯 公式 (7.8) 中 估计 后 验 概 率 P(e | a) 的 困难 , 朴素 贝 叶 斯 分 
类 器 采用 了 属性 条 件 独 立 性 假设 , 但 在 现实 任务 中 这 个 假设 往往 很 难 成 立 . 于 
Fe, 人们 等 试 对 属性 条 件 独 立 性 假设 进行 一 定 程度 的 放松 , 由 此 产生 了 一 类 称 
为 “ 半 朴 素 贝 叶 斯 分 类 器 ”(semi-naive Bayes classifiers) 的 学 习 方 法 . 
半 朴 素 贝 叶 斯 分 类 器 的 基本 想法 是 适当 考虑 一 部 分 属性 间 的 相互 依赖 信 
B, 从 而 既 不 需 进 行 完 全 联合 概率 计算 ,又 不 至 于 彻底 忽略 了 比较 强 的 属性 依 
RUA. “ 独 依赖 估计 ”(One-Dependent Estimator, 简称 ODE) 是 半 朴 素 贝 叶 
斯 分 类 器 最 常用 的 一 种 策略 . 顾 名 思 议 , 所 谓 “ 独 依赖 ”就 是 假设 每 个 属性 在 
类 别 之 外 最 多 仪 依赖 于 一 个 其 他 属性 , 即 
d 
P(c | ax) «x P(c) Il Pere | eee). (7.21) 
i=1 
其 中 pa; 为 属性 zi 所 依赖 的 属性 , 称 为 zi 的 父 属性 . 此 时 , 对 每 个 属性 zi, £ 
ESIE pa; 已 知 , 则 可 采用 类 似 式 (7.20) 的 办 法 来 估计 概率 值 已 (zi | c, pai). 
于 是 , 问题 的 关键 就 转化 为 如 何 确 定 每 个 属性 的 父 属 性 , 不 同 的 做 法 产生 不 同 
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的 独 依赖 分 类 器 . 

最 直接 的 做 法 是 假设 所 有 属性 都 依赖 于 同一 个 属性 , 称 为 “ 超 父 ”(super- 
parent)， 然 后 通过 交叉 验证 等 模型 选择 方法 来 确定 超 父 属性 , 由 此 形成 了 
SPODE (Super-Parent ODE) 方 法 . 例如 , 在 图 7.1(b) 中 , zl 是 超 父 属性 . 


如 A 

p pe p T 

SOO EOOD GS ‘~ > 
NE szopE | wm 


图 7.1 朴素 贝 叶 斯 与 两 种 半 朴 素 贝 叶 斯 分 类 器 所 考 谋 的 属性 依赖 关系 


TAN (Tree Augmented naive Bayes) [Friedman et al., 1997] 则 是 在 最 大 市 
AS AE AKA (maximum weighted spanning tree) 算 法 [Chow and Liu, 1968] 的 基 
础 上 , 通过 以 下 步 又 将 属性 间 依 赖 关 系 约 简 为 如 图 7.1(c) 所 示 的 树 形 结构 : 


(1) 计算 任意 两 个 属性 之 则 的 条 件 互 信息 (conditional mutual information) 
Pa, 2; | 
fle £; = 天 (Ti £i log 一 一 一 一 一 一 一 ;; T.22 
(Ti, Ti | y) 之 (zi, Ti | c) log Pix: | cP e) ( ) 
(2) 以 属性 为 结 点 构建 完全 图 , 任意 两 个 结 点 之 间 边 的 权重 设 为 
Tm | y); 
(3) 构建 此 完全 图 的 最 大 市 权 生 成 树 , 挑选 根 变 量 , 将 边 置 为 有 辣 ; 


(4) 加 入 类 别 结 点 y, 增加 从 y 到 每 个 属性 的 有 向 边 . 


容易 看 出 , 条 件 互 信息 (xi x; | y) 刻画 了 属性 xz; 和 zi 在 已 知 类 别 情况 下 

的 相关 性 , 因此 , 通过 最 大 生成 树 算法 , TAN 实际 上 仅 保 留 了 强 相 关 属 性 之 间 

AODE (Averaged One-Dependent Estimator) [Webb et al., 2005] 是 一 种 

REAR BF. ”基于 集成 学 习 机 制 、 更 为 强大 的 独 依赖 分 类 器 . 与 SPODE 通过 模型 选择 确定 
超 父 属性 不 同 , AODE 尝试 将 每 个 属性 作为 超 父 来 构建 SPODE, 然后 将 那些 
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m' 默认 设 为 30 [Webb 
et al., 2005]. 


“高 阶 依赖 ” 即 对 多 个 
属性 依赖 . 


贝 叶 斯 网 是 一 种 经 典 的 
概率 图 模型 概率 图 模型 
参见 第 14 章 . 


第 7 章 贝 叶 斯 分 类 器 


具有 足够 训练 数据 支撑 的 SPODE 集成 起 来 作为 最 终结 果 , BH 


d d 
Pte |e) > Pie) JI Falen (7.23) 
Da [>m = 


其 中 D,, 是 在 第 i 个 属性 上 取 值 为 x; 的 样本 的 集合 , m ABR. A, 
AODE Ratt P(e, zi) 和 P(x; | c z:). 类 似 式 (7.20), 有 


|De,x; | T 1 


P(c, ©) = |DJI+NxN; , (7.24) 
- [Dozz | +1 
P(x; | c, xi) = Des lt Ni (7.25) 


其 中 NN 是 DD 中 可 能 的 类 别 数 , N; 是 第 i 个 属性 可 能 的 取 值 数 , Dow, 是 类 别 为 
c 旦 在 第 i 个 属性 上 取 值 为 xz; 的 样本 集合 ,De 是 类 别 为 c ATER i 和 第 了 
个 属性 上 取 值 分 别 为 wz 和 zx; 的 样本 集合 . 例如 , 对 西瓜 数据 集 3.0 有 


E A _ a . 6 十 1 
hoa — = E aip = yn 一 一 
Pg m = PAPI = Ze, ocr = 省 啊 ) a 00 
+ sT O O 3+1 
7 向 陷 是 浊 响 = PORR = HIB | 好 瓜 = E, E = 独 啊 ) = 0.444 


不 难看 出 , 与 朴素 贝 叶 斯 分 类 器 类 似 , AODE 的 训练 过 程 也 是 “计数 ”, 即 
在 训练 数据 集 上 对 符合 条 件 的 样本 进行 计数 的 过 程 . Bp RD RR VL Se a A 
似 , AODE 无 需 模 型 选择 , 既 能 通过 预计 算 市 省 预测 时 间 , 也 能 采取 懒惰 学 习 方 
式 在 预测 时 再 进行 计数 , 并 且 易 于 实现 增 量 学 习 . 

既然 将 属性 条 件 独 立 性 假设 放松 为 独 依 赖 假设 可 能 获得 泛 化 性 能 的 提升 ， 
那么 , 能 个 通过 考 谍 属性 间 的 高 阶 依赖 来 进一步 提升 也 化 性 能 呢 ? E a ae Ue, 
将 式 (7.21) 中 的 属性 pa; 蔡 换 为 包含 尺 个 属性 的 集合 pai, 从 而 将 ODE 拓展 为 
KDE. 需 注 意 的 是 , 随 着 大 的 增加 , 准确 估计 概率 P(x | y, pa,) 所 需 的 训练 样 
本 数量 将 以 指数 级 增加 . 因此, 硅 训 练 数 据 非 常 充分 , 泛 化 性 能 有 可 能 提升 ; 但 
在 有 限 样 本 条 件 下 , WAE ie BB A. 


7.5 贝 叶 斯 网 


NE H (Bayesian network) 亦 称 “ 信 念 网 ”(belief network), 它 借 助 有 问 
无 环 图 (Directed Acyclic Graph, 简称 DAG) 来 刻画 属性 之 间 的 依赖 关系 , 并 使 


7.5 ” 贝 叶 斯 网 


为 了 简化 讨论 , AR 
定 所 有 属性 均 为 离散 型 . 
对 于 连续 属性 ,条件 概率 
表 可 推广 为 条 件 概 率 密 度 
TES 


这 里 已 将 西瓜 数据 集 的 
连续 属性 “ 含 糖 率 ” 转 化 
为 离散 属性 “ 甜 度 ”. 


这 里 并 未 列举 出 所 有 的 
条 件 独 立 关 系 . 
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用 条 件 概率 表 (Conditional Probability Table, 简称 CPT) 来 描述 属性 的 联合 概 
率 分 布 . 
具体 来 说 ,一 个 贝 叶 斯 网 B 由 结构 G 和 参数 日 两 部 分 构成 , 即 B= (G, 0). 
网 络 结构 G 是 一 个 有 问 无 环 图 , 其 每 个 结 点 对 应 于 一 个 属性 , 若 两 个 属性 有 
直接 依赖 关系 , 则 它们 由 一 条 边 连接 起 来 ; SMO 定量 接 述 这 种 依赖 关系 ， 
假设 属性 zi Æ G 中 的 父 结 点 集 为 m, 则 9 包含 了 每 个 属性 的 条 件 概率 表 
Oilr; = P(x: | mi). 
作为 一 个 例子 , 图 7.2 给 出 了 西瓜 问题 的 一 种 贝 叶 斯 网 结构 和 属性 “ 根 
蒂 ” 的 条 件 概率 表 . 从 图 中 网 络 结 构 可 看 出 , “色泽 ”直接 依 顿 于 “好 瓜 ” 和 
“ 甜 度 ”, 而 “ 根 带 ” 则 直接 依赖 于 “ 甜 度 ”; 进一步 从 条 件 概率 表 能 得 到 
“ 根 带 ”对 “ 甜 度 ”量化 依赖 关系 , 如 PORT = 便 挺 | 甜 度 = 高 ) = 0.1 等 . 


图 7.2 西瓜 问题 的 一 种 贝 叶 斯 网 结构 以 及 属性 “ 根 蒂 ”的 条 件 概率 表 


7.5.1 结构 
由 时 斯 网 结构 有 效 地 表达 了 属性 间 的 条 件 独立 性 . 给 定 父 结 点 集 ， 贝 叶 斯 
的 联合 概率 分 布 定 义 为 


d d 
ps top aid] = lI Pelta | az) = ICAS | (7.26) 
i=1 i=1 
以 图 7.2 为 例 , 联合 概率 分 布 定 义 为 
P(x£1, £2, £3, £4, £5) = P(x) P(x2)P(ax3 | 21) P(£4 | 21, £2)P(25 | Z2) , 
显然 ， T3 和 T4 在 给 定 T1 的 取 值 时 独立 ， TA FU T5 在 给 定 T2 的 取 值 时 独立 ， 分 
AWA za L xq | x, M z4 L z5 | Z2. 


图 7.3 显示 出 贝 叶 斯 网 中 三 个 变量 之 间 的 典型 依赖 关系 , 其 中 前 两 种 在 
式 (7.26) 中 己 有 所 体现 . 


158 


对 变量 做 积分 或 求 和 亦 
+F : in 际 AE” (marginal- 


ization). 


D 是 指 “ 有 向 ” (direct- 
ed). 


同 父 、 顺 序 和 V 型 结构 
的 发 现 以 及 有 向 分 离 的 提 
出 推动 了 因果 发 现 方面 的 
研究 ,参阅 [Pearl, 1988]. 


也 有 译 为 “32 EA” , 

“道德 化 ”的 蔓 义 : 孩 
子 的 父母 应 建立 牢靠 的 关 
A, 否则 是 不 道德 的 . 


7m ” 贝 时 斯 分 类 器 


£ N j a a 


同 父 结构 V 型 结构 顺序 结构 


7.3 贝 叶 斯 网 中 三 个 变量 之 间 的 典型 依赖 关系 


在 “ 同 父 ”(common parent) 结 构 中 , 给 定 父 结 点 zl 的 取 值 , WW za 与 x4 
条 件 独立 . 在 “顺序 ”结构 中 , 给 定 z 的 值 , Wy 与 z 条 件 独 立 . V 型 结构 (V- 
structure) JRK “IP” S4, 给 定子 结 上 所 ra 的 取 值 , zl 与 za 必 不 独立 ; 奇妙 
We, 若 za 的 取 值 完全 未 知 , M V 型 结构 下 zl 与 zz 却 是 相互 独立 的 . 我 们 做 
一 个 简单 的 验证 : 


ML) = `S P(x1, £2, T4) 


Ta 


= ŅX_ P(za | #1, £2)P(£1)P(z2) 


Ta 


= P(x1)P(z2) . (7.27) 


这 样 的 独立 性 称 为 “边际 独立 性 ”(marginal independence), WW zidro. 
事实 上 , 一 个 变量 取 值 的 确定 与 否 , 能 对 另 两 个 变量 闻 的 独立 性 发 生 影 啊 ， 
这 个 现象 并 非 V 型 结构 所 特有 . 例如 在 同 父 结构 中 , 条 件 独 立 性 za 上 ag | zl 
KaL, (A zı 的 取 值 未 知 , W zs 和 og 就 不 独立 , BI esl ra 不 成 了 立 ; 在 顺序 结 
HIP, y Lz | a, 1E ylz ARE. 
Ay S atA lel FS PB Oe eB] H SR A S tE, 可 使 用 “有 问 分 房 ”(D- 
separation). 我 们 先 把 有 加 图 转变 为 一 个 无 加 图 : 


e 找 出 有 回 图 中 的 所 有 V 型 结构 , Æ V 型 结构 的 两 个 父 结 点 之 间 加 上 一 条 
无 问 边 ; 
e 将 所 有 有 癌 边 改 为 无 向 边 . 
由 此 产生 的 无 同 图 称 为 “道德 图 ”(moral graph), 令 父 结 点 相连 的 过 程 称 为 
“道德 化 ”(moralization) [Cowell et al., 1999]. 
基于 道德 图 能 直观 、 迅 速 地 找到 变量 间 的 条 件 独立 性 , 假定 道德 图 中 有 变 
E r, y 和 变量 集合 z = {z}, HEE r A y 能 在 图 上 被 z 分 开 , 即 从 道德 图 中 将 


7.5 RAH 
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ATER, 仅 ”变量 集合 z 去 除 后 , zx Al y 分 属 两 个 连通 分 支 , 则 称 变量 r 和 wy 被 z 有 向 分 离 ， 


保留 有 向 图 中 x, y zee 
们 的 祖先 结 点 ， 


归纳 偏好 参见 1.4 FF. 


这 里 我 们 把 类 别 也 看 必 
一 个 属性 , 即 zw; 是 一 个 包 
括 示 例 和 类 别 的 向 量 . 


acly|z or. 例如 , 图 7.2 所 对 应 的 道德 图 如 图 7.4 所 示 , 从 图 中 能 容易 地 找 
出 所 有 的 条 件 独立 关系 : 3 L TA | Tl. TA L T5 | T2, T3 E T? | £1, T3 L T5 | T1, 
T3 L T5 | To 等 . 


7.4 图 7.2 对 应 的 道德 图 


7.5.2 学 习 


车 网 络 结构 已 知 , 即 属性 间 的 依赖 关系 已 知 , 则 贝 叶 斯 网 的 学 习 过 程 相 对 
简单 ,只 需 通过 对 训练 样本 “计数 ”, 估计 出 每 个 结 点 的 条 件 概率 表 即 可 . 但 在 
现实 应 用 中 我 们 往往 并 不 知晓 网 络 结构 , 于 是 , 贝 叶 期 网 学 习 的 首要 任务 束 是 
根据 训练 数据 集 来 找 出 结构 最 “恰当 ”的 贝 叶 斯 网 “评分 搜索 ”是 求解 这 一 
问题 的 常用 办 法 . 具体 来 说 , 我 们 先 定义 一 个 评分 函数 (score function), 以 此 来 
评估 页 叶 斯 网 与 训练 数据 的 站 合 程度 , 然后 基于 这 个 评分 函数 来 寻找 结构 最 优 
的 贝 叶 斯 网 .显然 , 评分 函数 引入 了 关于 我 们 希望 获得 什么 样 的 贝 叶 斯 网 的 归 


前 用 评分 函数 通常 基于 信息 论 准 则 , 此 类 准则 将 学 习 问 题 看 作 一 个 数据 压 
缩 任务 , 学 习 的 目标 是 找到 一 个 能 以 最 短 编码 长 度 摘 述 训 练 数据 的 模型 , 此 时 
编码 的 长 度 包 括 了 描述 模型 自身 所 需 的 字 节 长 度 和 使 用 该 模型 描述 数据 所 需 
FEKE. 对 贝 叶 斯 网 学 习 而 言 , 模型 就 是 一 个 贝 叶 斯 网 , 同时 , 每 个 贝 叶 斯 
网 描述 了 一 个 在 训练 数据 上 的 概率 分 布 , 目 有 一 套 编 码 机 制 能 使 那些 经 党 出 
现 的 样本 有 更 短 的 编码 . 于 是 , 我 们 应 选择 那个 综合 编码 长 度 (包括 描述 网 络 
和 编码 数据 ) 最 短 的 贝 叶 斯 网 , 这 就 是 “最 小 朱 述 长 度 ”(Minimal Description 
Length, faj# MDL) 准则 . 


给 定 训 练 集 D = {a1,20,...,&m}, WA B = (G,0) Æ D ERTES A 
数 可 写 为 
s(B | D) = f(9)|B| — LL(B | D) , (7.28) 
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可 以 从 统计 学 习 角 度 理 
AE, AS PR SH) LH HS AQ 
凤 险 和 经 验 风 险 . 


即 事件 在 训练 数据 上 出 
现 的 频率 . 


例如 TAN [Friedman et 
al., 1997] 将 结构 限定 为 树 
形 ( 半 朴 素 贝 叶 斯 分 类 器 
可 看 作 贝 叶 斯 网 的 特例 ). 


第 7 章 ” 贝 了 时 斯 分 类 器 
其 中 , |B| 是 贝 叶 斯 网 的 参数 个 数 ; f(9) 表示 描述 每 个 参数 9 所 需 的 字 节 数 ; 而 
LL(B | D) = X log Pg (xi) (7.29) 

i=] 


是 贝 叶 斯 网 B 的 对 数 似 然 . 显然 , 式 (7.28) 的 第 一 项 是 计算 编码 贝 叶 斯 网 B T 
Te aX, 第 二 项 是 计算 B 所 对 应 的 概率 分 布 Pp 对 D 摘 述 得 有 多 好 . TE, 
学 习 任 务 就 转化 为 一 个 优化 任务 , 即 寻 找 一 个 贝 时 斯 网 B 使 评分 函数 s(B | D) 
最 小 . 

43 f(9) = 1, 即 每 个 参数 用 1 SHA, 则 得 到 AIC (Akaike Information 
Criterion) 评 分 图 数 


AIC(B | D) = |B| — LL(B| D). (7.30) 
47 f (0) = Slogm, 即 每 个 参数 用 5 logm 字 节 描述 , 则 得 到 BIC (Bayesian 
Information Criterion) 评分 函数 


log m 
2 


BIC(B | D) = |B] — LL(B | D) . (7.31) 
显然 , £ f(9) = 0, 即 不 计算 对 网 络 进 行 编码 的 长 度 , 则 评分 函数 退化 为 负 
对 数 似 然 , 相应 的 , 学 习 任 务 退 化 为 极 大 似 然 估计 . 


不 难 发 现 , 车 贝 叶 斯 网 B = (G,0) 的 网 络 结 构 G 固定 , 则 评分 函数 
s(B | D) 的 第 一 项 为 常数 . 此 时 , 最 小 化 s(B | D) 等 价 于 对 参数 日 的 极 大 似 然 
估计 . 由 式 (7.29) 和 (7.26) 可 知 , 参数 Onim 能 直接 在 训练 数据 D 上 通过 经 验 估 
计 获 得 , 即 

Qi,|n; = Pp(ax: | mi) ， (7.32) 


其 中 Pp(-) 是 D 上 的 经 验 分 布 . 因此 , 为 了 最 小 化 评分 函数 s(B | D), 只 需 对 网 
络 结构 进行 搜索 , 而 候选 结构 的 最 优 参数 可 直接 在 训练 集 上 计算 得 到 . 


Asse HW ze, 从 所 有 可 能 的 网 络 结构 空间 搜索 最 优 贝 叶 斯 网 结构 是 一 个 NP 
难 问 题 , 难以 快速 求解 . 有 两 种 常用 的 策略 能 在 有 限时 间 内 求 得 近似 解 : 第 一 
种 是 贪心 法 , 例如 从 茶 个 网 络 结构 出 发 , 每 次 调整 一 条 边 (增加 、 删 除 或 调整 方 
癌 ), 直到 评分 函数 值 不 再 降低 为 止 ; 第 二 种 是 通过 给 网 络 结构 施加 约束 来 罚 减 
搜索 空间 , 例如 将 网 络 结构 限定 为 树 形 结构 等. 


7.5 TAME 


类 别 也 可 看 作 一 个 属性 
EF. 


更 多 关于 推断 的 内 容 见 
第 14 =. 


变 分 推断 也 很 常用 ， A 
见 14.5 节 ， 


更 多 关于 马尔 可 夫 链 和 
吉 布 斯 采样 的 内 容 和 参见 
14.5 节 . 
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7.5.3 推断 


贝 叶 斯 网 训练 好 之 后 就 能 用 来 回答 “和 查询 ”(query), 即 通过 一 些 属 性 变量 
的 观测 值 来 推测 其 他 属性 变量 的 取 值 . 例如 在 西瓜 问题 中 , 铬 我 们 观测 到 西瓜 
MARRS. ROPE. Aare a, 想 知 道 它 是 否 成 熟 、 甜 度 如 何 . 这 样 通过 已 
知 秋 量 观测 值 来 推测 等 可 询 变 量 的 过 程 称 为 “推断 ”(inference), 己 知 变量 观 
测 值 称 为 “证 据 ”(evidence). 

最 理想 的 是 百 接 根 据 由 时 斯 网 定义 的 联合 概率 分 布 来 精确 计算 后 验 概 率 ， 
AERE, 这 样 的 “精确 推 新 ”已 被 证 明 是 NP 难 的 [Cooper, 1990]; 换言之 ， 
当 网 络 结 点 较 多 、 连 接 稠 密 时 , 难以 进行 精确 推断 , EIN aa Bh “UAE” 
通过 降低 精度 要 求 , 在 有 限时 间 内 求 得 近似 解 . 在 现实 应 用 中 , 贝 叶 斯 网 的 近似 
推断 种 使 用 吉 布 斯 采样 (Gibbs sampling) 来 完成 , 这 是 一 种 随机 采样 方法 , 我 们 
来 看 看 它 是 如 何 工 作 的 . 

FQ = {Q1,Q2,...,Qn} 表示 待 查 询 变 量 , E = {Bi1, E2, ... , Ex} 为 证 据 变 
量 , 已 知 其 取 值 为 e = {e1,€2,...,en}. 目标 是 计算 后 验 概率 P(Q =q |E = e), 
其 中 q = {q1, gz,... ,gn} 是 待 查询 变量 的 一 组 取 值 . 以 西瓜 问题 为 例 , 待 查询 变 
量 为 Q = {好 瓜 , WE}, 证 据 变 量 为 E = { EF, me, RH} 且 已 知 其 取 值 为 
e = {Fr4x, IIH, keti}, 查询 的 目标 值 是 q = { 是 , 高 }, 即 这 是 好 瓜 且 甜 度 高 的 
概率 有 多 大 . 

如 图 7.5 所 示 , 吉 布 斯 采样 算法 先 随机 产生 一 个 与 证 据 E = e 一 致 的 样本 
qa? 作为 初始 点 , 然后 每 步 从 当前 样本 出 发 产生 下 一 个 样本 . 具体 来 说 , 在 第 t 
次 采样 中 , 算法 先 假设 qt = qatt, 然后 对 非 证 据 变 量 逐 个 进行 采样 改变 其 取 值 ， 
采样 概率 根据 贝 叶 斯 网 B 和 其 他 变量 的 当前 取 值 ( 即 Z = z) 计 算 获 得 . 假定 经 
wT 次 采样 得 到 的 与 q 一 致 的 样本 共有 mo 个 , 则 可 近似 估算 出 后 验 概 率 

P(Q=q|E=e)~ =. (7.33) 
实质 上 , 吉 布 斯 采样 是 在 贝 叶 斯 网 所 有 变量 的 联合 状态 空间 与 证 据 EE=e 
一 致 的 子 空间 中 进行 “随机 漫步 ”(random walk)， 每 一 步 仅 依赖 于 前 一 步 
的 状态 , 这 是 一 个 “马尔 可 夫 链 ”(Markov chain)， 在 一 定 条 件 下 , 无 论 从 
什么 初 妈 状态 开始 , 马尔 可 去 链 第 七 步 的 状态 分 布 在 圭一 co NW DUS 
个 平稳 分 布 (stationary distribution); 对 于 吉 布 斯 采样 来 说 , 这 个 分 布 恰好 是 
P(Q | E = e). Alt, Æ T RAW, 吉 布 斯 采样 相当 于 根据 P(Q | E = e) RF, 
从 而 保证 了 陈 (7.33) 收 敛 于 P(Q = q | E = e). 
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由 于 “ 似 然 ” 常 基 于 指 
数 恋 函数 来 定义 ， 因 此 对 
RAW PR BIG HE EM 选 代 过 
程 中 一 般 是 使 用 自然 对 数 
In(-). 


7m WANs 


输入 : 见 叶 斯 网 B = (G, O); 
KEKE T; 
证 据 变 量 E 及 其 取 值 e; 
待 查询 变量 Q 及 其 取 值 q. 
过 程 : 
1: nq 
2: q = = Q 随机 赋 初 值 
3: for t = 1,2,..., T do 
for Q; € Q do 
Z=EUQ\{Q;}; 
z= e Uq \ {gt}; 
kia B 计算 分 布 Pe(Qi | Z= z); 
= 根据 Pr (Qi | Z = 2) 采样 所 获 Q; 取 值 
9: E eae ee gE 用 qt 替换 
10: end for 
il: if qf = q then 


P 


12: Ng = Nng + 1 
13: end if 
14: end for 


输出 : P(Q=q|E=e)~ 7# 


图 7.5 吉 布 斯 采样 算法 


需 注意 的 是 , 由 于 马尔 可 夫 链 通常 需 很 长 时 间 才 能 趋 于 平稳 分 布 , 因此 

吉 布 斯 采样 算法 的 收敛 速 度 较 慢 . 此外, 车 贝 叶 斯 网 中 存在 极端 概率 “0” 或 

1”, 则 不 能 保证 马尔 可 夫 链 存在 平稳 分 布 , 此 时 吉 布 斯 采样 会 给 出 错误 的 估 
计 结 果 . 


7.6 EM 算法 


在 前 面 的 讨论 中 , 我 们 一 直 假 设 训 练 样本 所 有 属性 变量 的 值 都 已 被 观测 到 ， 

即 训 练 样本 是 “完整 ”的 . 但 在 现实 应 用 中 往往 会 遇 到 “不 完整 ”的 训练 样 

AS, 例如 由 于 西瓜 的 根 带 已 脱落 , FO RE “a” EE “EE”, 则 训练 样 

本 的 “ 根 蒂 ”属性 变量 值 未 知 . 在 这 种 存在 “未 观测 ”变量 的 情形 下 , 是 否 仍 
能 对 模型 参数 进行 估计 呢 ? 

未 观测 变量 的 学 名 是 “ 隐 变 量 ”(latent variable). + X 表示 已 观测 变量 

R, Z ETELE, © 表示 模型 参数 . FAT 日 做 极 大 似 然 估计 , 则 应 最 大 化 

LL(O | X,Z) = InP(X,Z| 9). (7.34) 


然而 由 于 Z 是 隐 变 量 , 上 式 无 法 直接 求解 . 此 时 我 们 可 通过 对 Z 计算 期 望 , 来 


7.6 EM 算法 


直译 为 “期 望 最 大 化 算 
法 ”, 通常 直接 称 EM FH 


这 里 仅 给 出 EM 算法 的 
一 般 描 述 ， 具体 例子 参见 
9.4.3 节 ， 


EM 算法 的 收 化 性 分 析 
参见 [Wu, 1983]. 


EM 算法 可 看 作用 坐标 
下 降 (coordinate descent) 
法 来 最 大 化 对 数 似 然 下 界 
的 过 程 . 坐标 下 降 法 参见 
附录 B.5. 
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最 大 化 已 观测 数据 的 对 数 “ 边 际 似 然 ”(marginal likelihood) 


LL(© | X) =n P(X | ©) =n} P(X,Z |©). (7.35) 


EM (Expectation-Maximization) 算法 [Dempster et al., 1977] 是 常用 的 估 
计 参 数 隐 变量 的 利器 , EE ATR A, 其 基本 想法 是 : 看 参数 日 已 知 ， 
则 可 根据 训练 数据 推断 出 最 优 隐 变 量 Z 的 值 (E 步 ); 反之 , eZ EGA, 则 可 
方便 地 对 参数 日 做 极 大 似 然 估计 (M 步 ). 

于 是 , 以 初始 值 ©° 为 起 点 , 对 式 (7.35), TRAITA FRE ES: 


e 其 于 OF 推断 隐 变 量 Z 的 期 望 , AZ’, 
。 基于 已 观测 变量 X AZ’ 对 参数 日 做 极 大 似 然 佑 计 , WA OF; 


这 就 是 EM 算法 的 原型 . 
进一步 , 夺 我 们 不 是 取 ZS, 而 是 基于 Of 计算 隐 变 量 2 的 概率 分 布 
P(Z | X,0*), WW EM 算法 的 两 个 步骤 是 : 


e E 4 (Expectation): 以 当前 参数 Of 推断 隐 变 量 分 布 P(Z | X,0*), 并 计 
算 对 数 似 然 LL(O | X, Z) XF Z Ye 


Q(O | 0°) = Ezxe: LL(O | X, Z). (7.36) 
e M # (Maximization): 寻找 参数 最 大 化 期 望 似 然 , 即 
otti — arg max Q(O | O°) . (7.37) 
Ə 


向 要 来 说 , EM 算法 使 用 两 个 步骤 区 亚 计 算 : 第 一 步 是 期 望 (E) 步 , 利用 当 
前 信 计 的 参数 值 来 计算 对 数 似 然 的 期 望 值 ; 第 二 步 是 最 大 化 (M) 步 , 寻找 能 使 
E 步 产 生 的 似 然 期 望 最 大 化 的 参数 值 . 然后 , 新 得 到 的 参数 值 重 新 被 用 于 忆 步 ， 
re 直人 至 收敛 到 局 部 最 优 解 . 

事实 上 , 隐 变 量 估计 问题 也 可 通过 梯度 下 降 等 优化 算法 求解 , 但 由 于 求 和 
的 项 数 将 随 着 隐 变 量 的 数目 以 指数 级 上 升 , 会 给 梯度 计算 带 来 且 烦 ; 而 EM 算 
法 则 可 看 作 一 种 非 梯度 优化 方法 . 


164 第 7 章 WAR 


7.7 阅读 材料 


见 叶 斯 决策 论 在 机 器 学 习 、 模 式 识 别 等 诸多 关注 数据 分 析 的 领域 都 有 极 
为 重要 的 地 位 . 对 贝 叶 斯 定理 进行 近似 求解 ,为 机 器 学 习 算 法 的 设计 提供 了 
一 种 有 效 途 径 . 为 避免 贝 叶 斯 定理 求解 时 面临 的 组 合 爆 炸 、 样 本 稀 朴 问题 , 朴 
素 贝 叶 斯 分 类 器 引入 了 属性 条 件 独立 性 假设 . 这 个 假设 在 现实 应 用 中 往往 很 
难 成 立 , 但 有 趣 的 是 , tR 见 叶 斯 分 类 器 在 很 多 情形 下 都 能 绪 得 相当 好 的 性 能 
[Domingos and Pazzani, 1997; Ng and Jordan, 2002]. 一 种 解释 是 对 分 类 任务 
来 说 , 只 需 各 类 别 的 条 件 概率 排序 正确 、 无 须 精 准 概率 值 即 可 导致 正确 分 类 结 
果 [Domingos and Pazzani, 1997]; 另 一 种 解释 是 , 若 属 性 间 人 依赖 对 所 有 类 别 影 
啊 相 同 , 或 依赖 关系 的 影响 能 相互 抵消 , 则 属性 条 件 独 芯 性 假设 在 降低 计算 开 
销 的 同时 不 会 对 性 能 产生 负面 影响 [Zhang, 2004]. 朴素 贝 叶 斯 分 类 器 在 信息 检 
2 MIC A in FAL [Lewis, 1998], [McCallum and Nigam, 1998] 对 其 在 文本 分 关 
EP EA) PY PH A al A YEE FT T EE. 

根据 对 属性 间 依 赖 的 涉及 程度 , DU a as eT HS “Rs FP RR 
叶 斯 分 类 器 不 考虑 属性 则 依赖 性 , 贝 叶 斯 网 能 表示 任意 属性 间 的 依赖 性 , 二 者 
分 别 位 于 “ 谱 ” 的 两 端 ; 介 于 两 者 之 闻 的 则 是 一 系列 半 朴 素 贝 叶 斯 分 类 器 , 它 
们 基于 各 种 假设 和 约束 来 对 属性 间 的 部 分 依赖 性 进行 建 模 . 一 般 认为 , AB ADR 
贝 叶 斯 分 类 器 的 研究 始 于 [Kononenko, 1991]. ODE 仅 考 虑 依赖 一 个 父 属性 ， 
由 此 形成 了 独 依赖 分 类 器 如 TAN [Friedman et al., 1997]. AODE [Webb et al., 
2005]. LBR (lazy Bayesian Rule) [Zheng and Webb, 2000] 等 ; KDE 则 考虑 最 
多 依赖 上 个 父 属性 , CIB RT ktkt Kiri KDB [Sahami, 1996], NBtree 
[Kohavi, 1996] 等 . 

贝 叶 斯 分 类 器 (Bayes Classifier) 与 一 般 意 义 上 的 “ 贝 叶 斯 学 习 ”(Bayesian 
Learning) A EARKI, 前 者 是 通过 最 大 后 验 概率 进行 单 点 估计 , 后 者 则 是 进行 
分 布 估计 . 关于 贝 叶 斯 学 习 的 内 容 可 参阅 [Bishop, 2006]. 

见 叶 斯 网 为 不 确定 学 习 和 推断 提供 了 基本 框架 , 因 其 强大 的 表示 能 力 、 
Prea p 良好 的 可 解释 性 而 广 受 关注 [Pearl, 1988]， 贝 叶 斯 网 学 习 可 分 为 结构 学 习 和 
ARK, 参见 第 14 章 . 参数 学习 两 部 分 . 参数 学 习 通 稼 较为 简单 , 而 结构 学 习 则 被 证 明 是 NP 难 问 

题 [Cooper, 1990; Chickering et al.，2004]， 人 们 为 此 提出 了 多 种 评分 搜索 方法 
[Friedman and Goldszmidt, 1996]. 贝 叶 斯 网 通常 被 看 作 生 成 式 模型 , 但 近年 来 
也 有 不 少 关 于 贝 叶 斯 网 判别 式 学 习 的 研究 [Grossman and Domingos, 2004]. 天 
a eerie 于 贝 叶 斯 网 的 更 多 介绍 可 参阅 [Jensen, 1997; Heckerman, 1998]. 
EM 算法 是 最 常见 的 隐 变 量 估计 方法 , 在 机 器 学 习 中 有 极为 广泛 的 用 途 , Bil 
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如 常 被 用 来 学 习 高 斯 混合 模型 (Gaussian mixture model, 简称 GMM) 的 参数 ; 
9.4 节 将 介绍 的 天 均值 聚 类 算法 就 是 一 个 典型 的 EM 算法 . 更 多 关于 EM 算法 
的 分 析 、 拓 展 和 应 用 可 参阅 [McLachlan and Krishnan, 2008]. 
“数据 控 握 十 大 算法 ” fe 十 其 F 入 ge TATSIA A ae e ee pe “Ie 
Hea oS 本 章 介 绍 的 朴素 贝 叶 斯 算法 和 EM 算法 均 曾 入 选 “ 数 据 挖 据 十 大 算 


C4.5、CART 决策 树 、 支 [Wu et al., 2007]. 
持 向 量 机 ， 以 及 后 几 章 将 

要 介绍 的 AdaBoost. k 均 

值 聚 类 、 天 近邻 算法 等 
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西瓜 数据 集 3.0 JL p.84 了 .1 
的 表 4.3. 


7.2" 
7.3 


7.4 


7.5 
假设 同 先 验 ; BIH 3.4 


7.6 


T.T 


7.8 


西瓜 数据 集 2.0 见 p.76 7 9 
的 表 4.1. 


7.10 


7m ” 贝 时 斯 分 类 器 


试 使 用 极 大 似 然 法 估算 西瓜 数据 集 3.0 中 前 3 个 属性 的 类 条 件 概 率 . 


试 证 明 : 条 件 独 立 性 假设 不 成 立时 , 朴素 贝 叶 斯 分 类 器 仍 有 可 能 产生 
最 优 贝 叶 斯 分 类 器 . 


试 编程 实现 拉 普 拉 斯 修正 的 朴素 贝 叶 斯 分 类 器 , 并 以 西瓜 数据 集 3.0 
为 训练 集 , 对 p.151 “ 测 1” 样 本 进行 判别 . 


实践 中 使 用 式 (7.15) 决 定 分 类 类 别 时 , 若 数据 的 维 数 非 常 高 , 则 概率 连 
He JJL, Pla: | c) 的 结果 通常 会 非常 接近 于 0 从 而 导致 下 溢 . 试 述 防 
止 下 溢 的 可 能 方案 


试 证 明 : 二 分 类 任务 中 两 类 数据 满足 高 斯 分 布 且 方 差 相 同时 , 线性 判 
别 分 析 产 生 贝 叶 斯 最 优 分 类 器 . 


试 编程 实现 AODE 分 类 器 , 并 以 西瓜 数据 集 3.0 为 训练 集 , 对 p.151 
的 “ 测 1” 样 本 进行 判别 . 


给 定 d 个 二 值 属 性 的 二 分 类 任务 , 假设 对 于 任何 先 验 概率 项 的 估算 至 
少 需 30 个 样 例 , 则 在 朴素 贝 叶 斯 分 类 器 式 (7.15) 中 估算 先 验 概率 项 
P(c) 需 30 x 2 = 60 个 样 例 . 试 估计 在 AODE 式 (7.23) 中 估算 先 验 概 
Z P(e, zi) 所 需 的 样 例 数 ( 分 别 考虑 最 好 和 最 坏 情 形 ). 


7§ IE 7.3, 试 证 明 : 在 同 父 结构 中 , Æ zl 的 取 值 未 知 , W zs lag 不 成 
AE; FEMUR AP, y Lz | x, 但 yz 不 成 并 . 


以 西瓜 数据 集 2.0 为 训练 集 , 试 基于 BIC 准则 构建 一 个 贝 叶 斯 网 . 


以 西瓜 数据 集 2.0 中 属性 “ 脐 部 ”为 隐 变 量 , 试 基 于 EM 算法 构建 一 
个 贝 叶 斯 网 . 
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小 故事 : 贝 叶 斯 之 迹 


1763 年 12 月 23 H, 托 蕊 斯 。 贝 叶 斯 (Thomas Bayes, 
1701? 一 1761) 的 遗产 受 赠 者 R. Price 牧师 在 英国 皇家 学 
会 宣读 了 贝 叶 斯 的 遗 作 《 论 机 会 学 说 中 一 个 问题 的 求解 》， 
其 中 给 出 了 贝 叶 斯 定理 , 这 一 天 现在 被 当 作 贝 叶 斯 定理 的 诞 
生日 . 虽然 贝 叶 斯 定理 在 今天 已 成 为 概率 统计 最 经 典 的 内 容 
之 一 , 但 贝 叶 斯 本 人 却 禾 单 在 谜团 中 . 

现 有 资料 表明 , 贝 叶 斯 是 一 位 神职 人 员 , 长 期 担任 英国 坦 布 里 奇 韦 尔 斯 地 
方 教堂 的 牧师 , 他 从 事 数 学 研究 的 目的 是 为 了 证 明 上 和 之 的 存在 . 他 在 1742 年 当 
选 英 国 星 家 学 会 会 士 , 但 没有 记录 表明 他 此 前 发 表 过 任何 科学 或 数学 论文 . 他 
的 提名 是 由 皇家 学 会 的 重量 级 人 物 签署 的 , 但 为 什么 提名 以 及 他 为 何 能 当选 ， 
BOM SiR. 贝 叶 斯 的 研究 工作 和 他 本 人 在 他 生活 的 时 代 很 少 有 人 关注 ， M 
叶 斯 定理 出 现 后 很 快 就 被 遗 筷 了 , 后 来 大 数学 家 拉 普 拉 斯 使 它 重新 被 科学 界 所 
AG, 但 直到 二 十 世纪 随 着 统计 学 的 广泛 应 用 才 备 受 瞩 目 . 贝 叶 斯 的 出 生年 份 
至 今 也 没有 清楚 确定 , 甚至 关于 如 今 广泛 流传 的 他 的 画像 是 不 是 贝 叶 斯 本 人 ， 
也 仍 存 在 争议 . 


8.1 个 体 与 集成 
Mpi a “T 集成 学 习 (ensemble learning) 通 过 构建 并 结合 多 个 学 习 器 来 完成 学 习 任 
到 e 务 , 有 时 也 被 称 为 多 分 类 器 系统 (multi-classifier system)、 基 于 委员 会 的 学 


>] (committee-based learning) 等 . 

图 8.1 显示 出 集成 学 习 的 一 般 结 构 : 先 产 生 一 组 “个 体 学 习 
器 ”(individual learner)， 再 用 某 种 策略 将 它们 结合 起 来 . 个 体 学 习 器 通常 
由 一 个 现 有 的 学 习 算 法 从 训练 数据 产生 , 例如 C4.5 决策 树 算法 、BP 神经 网 
络 算法 等 , 此 时 集成 中 只 包 会 同 种 类 型 的 个 体 学 习 器 , 例如 “决策 树 集 成 ” 
中 全 是 决策 树 ，“ 神 经 网 络 集 成 ”中 全 是 神经 网 络 , 这 样 的 集成 是 “ 同 质 ” 
的 (homogeneous). [al Jar Se BEF AIS AF oJ aR RK “SEAS > a” (base learner), 
相应 的 学 习 算 法 称 为 “ 基 学 习 算 法 ”(base learning algorithm). 集成 也 可 包含 
不 同类 型 的 个 体 学 习 器 , 例如 同时 包含 决策 树 和 神经 网 络 , 这 样 的 集成 是 “ 蜡 
质 ” 的 (heterogenous). 异 质 集成 中 的 个 体 学 习 器 由 不 同 的 学 习 算 法 生成 , 这 时 
BLAS FAA AE IE, 相应 的 , 个 体 学 习 器 一 般 不 称 为 基 学 习 器 , 和 常 称 为 “组 件 
“Jas” (component learner) 或 直接 称 为 个 体 学 习 器 . 


ae | 
| : al 
8.1 集成 学 习 示 意图 
集成 学 习 通 过 将 多 个 学 习 器 进行 结合 , Pe A RS EE A ae TY 


nd ep det 泛 化 性 能 . 这 对 “ 弱 学 习 器 ”(weak learner) 尤为 明显 , 因此 集成 学 习 的 很 多 理 
例如 在 二 分 类 问题 上 精度 ” 论 研究 都 是 针对 弱 学 习 器 进行 的 , 而 基 学 习 器 有 时 也 被 直接 称 为 弱 学 习 器 . 但 


BT 50% 的 分 类 器 。 需 注意 的 是 , 虽然 从 理论 上 来 说 使 用 弱 学 习 器 集成 足以 获得 好 的 性 能 , 但 在 实 
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践 中 出 于 种 种 考虑 , 例如 希望 使 用 较 少 的 个 体 学 习 器 , 或 是 重用 关于 常见 学 习 
器 的 一 些 经 验 等 , 人们 往往 会 使 用 比较 强 的 学 习 器 . 

在 一 般 经 验 中 , 如 果 把 好 坏 不 等 的 东西 掺 到 一 起 , 那么 通常 结果 会 是 比 最 
坏 的 要 好 一 些 , 比 最 好 的 要 坏 一 些 . 集成 学 习 把 多 个 学 习 器 结合 起 来 , 如 何 能 获 
得 比 最 好 的 单一 和 学习 器 更 好 的 性 能 呢 ? 

考虑 一 个 简单 的 例子 : 在 二 分 类 任务 中 , 假定 三 个 分 类 器 在 三 个 测试 样本 
上 的 表现 如 图 8.2 所 示 , 其 中 w 表示 分 类 正确 , x 表 示 分 类 错误 , 集成 学 习 的 结 
果 通 过 投票 法 (voting) 产 生 , 即 “ 少 数 服从 多 数 ”. 在 图 8.2(a) P, 每 个 分 类 器 
都 只 有 66.6% 的 精度 , 但 集成 学 习 却 达到 了 100%; 在 图 8.2(b) 中 , 三 个 分 类 器 
没有 差别 , 集成 之 后 性 能 没有 提高 ; 在 图 8.2(c) 中 , 每 个 分 类 器 的 精度 都 只 有 
33.3%, 集成 学 习 的 结果 变 得 更 糟 . 这 个 简单 的 例子 显示 出 : 要 获得 好 的 集成 ， 
个 体 学 习 器 应 “好 而 不 同 ”, 即 个 体 学 习 器 要 有 一 定 的 “准确 性 ”, 即 学 习 器 


aa, BAY AAT 不 能 太 坏 , 并 且 要 有 “多 样 性 ”(diversity), 即 学 习 器 问 具有 差异 


测试 例 1 测试 例 2 测试 例 3 测试 例 1 测试 例 2 测试 例 3 MAA Mal. 测试 例 3 
h v v x hy v V x h y x x 
ho x Fi Fi ho vf Vi x< hg x Ti x< 
hg y x J hs y J x hs x x J 
集成 vV v V 集成 V V x 集成 X x x 
(a) 集成 提升 性 能 (b) 集成 不 起 作用 (c) 集成 起 贡 作 用 


8.2 集成 个 体 应 “好 而 不 同 ”(hh; 表示 第 i 个 分 类 器 ) 


我 们 来 做 个 简单 的 分 析 . 考虑 二 分 类 问题 y E {一 1, 二 1} 和 真实 函数 f, 假 
EETRI EREN c, 即 对 每 个 基 分 类 器 hi 有 


P (h; (Œ) # f (Œ)) =e. (8.1) 
pa MEHE ATA 假设 集成 通过 简单 投票 法 结合 T 个 基 分 类 器 , 若 有 超过 半数 的 基 分 类 器 正确 ， 
则 集成 分 类 就 正确 : z | 
A (a) = sign es hi 四 (8.2) 
i=l 
eee, 假设 基 分 类 器 的 错误 率 相互 独立 , 则 由 Hoeffding 不 等 式 可 知 , 集成 的 错误 
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7/2! 
P(H (a) 4 f(x)) = >> G (1 — eRe 


k=0 


< exp (-37 ES 2e) ) (8.3) 


上 式 显 示 出 , 随 独 集成 中 个 体 分 类 器 数目 的 增 大 , 集成 的 错误 率 将 指数 级 下 
降 , 最 终 趋 向 于 零 . 

然而 我 们 必须 注意 到 , 上 面 的 分 析 有 一 个 关键 假设 : 基 学 习 器 的 误差 相互 
独立 . 在 现实 任务 中 , 个 体 学 习 器 是 为 解决 同一 个 问题 训练 出 来 的 , 它们 显然 不 
可 能 相互 独立 ! 事实 上 , 个 体 学 习 絮 的 “准确 性 ”和 “多 样 性 ”本 和 喘 就 存在 冲 
FE. 一 般 的 , 准确 性 很 融 之 后 , 要 增加 多 样 性 就 需 牺 牲 准 硝 性 . 事实 上 , 如 何 产 
生 并 结合 “好 和 而 不 同 ” 的 个 体 学 习 器 , 恰 是 集成 学 习 研 究 的 核心 . 

根据 个 体 学 习 器 的 生成 方式 , 目前 的 集成 学 习 方 法 大 致 可 分 为 两 大 类 , B 
个 体 学 习 器 间 存 在 强 依赖 关系 、 必 须 串 行 生 成 的 序列 化 方法 , 以 及 个 体 学 习 器 
加 不 存在 强 依 赖 天 系 、 可 同时 生成 的 并 行 化 方法 ; 六 者 的 代表 是 Boosting, 后 
者 的 代表 是 Bagging 和 “随机 森林 ” (Random Forest). 


8.2 Boosting 


Boosting 是 一 族 可 将 弱 学 习 器 提升 为 强 学 习 器 的 算法 . 这 族 算法 的 工作 机 
市 类 似 : 先 从 初始 训练 集训 | 练 出 一 个 基 学 习 器 , 再 根据 基 学 习 器 的 表现 对 训练 
PE AS oy Ai EAT WARE, 使 得 先前 基 学 习 器 做 错 的 训练 样本 在 后 续 受 到 更 多 关注 ， 
然后 基于 调整 后 的 样本 分 布 来 训练 下 一 个 基 学 习 器 ; 如 此 重复 进行 , 直至 基 学 
J ase AAS SCR EMA T, 最 终 将 这 了 人 个 基 学 习 规 进行 加 权 绪 合 . 

Boosting 族 算法 最 著名 的 代表 是 AdaBoost [Freund and Schapire, 1997], 
其 描述 如 图 8.3 Aras, 其 中 y; € {一 1, 十 1}, f 是 真实 函数 . 

AdaBoost 算法 有 多 种 推导 方式 ,比较 容易 理解 的 是 基于 “加 性 模 
AJ” (additive model), 即 基 尝 习 器 的 线性 组 合 


H(x) = X` arhi(x) (8.4) 


T 
t=1 


KEME EAG R AA (exponential loss function) [Friedman et al., 2000] 


lexp(H | D) = Eg~ple fo?) . (8.5) 
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WA: 训练 集 D = {(x1, 41), (V2, ya), --- (Lm, Yml}; 


基 学 习 算 法 L; 
训练 轮 数 工 . 
过 程 : 
初始 化 样本 权 值 分 布 . 1: Dy(x) = 1/m. 
基于 分 布 Di 从 数据 集 2: fort = 1,2,..., T do 
D 中 训练 出 分 类 器 he. 3: fe = L&D, Di) 


估计 he 的 误差 ， 4: Et = Pr~p,(hi(x) Æ f(x)); 
5: if «, > 0.5 then break 
6 a, = 31n Soe J 


更 新 样本 分 布 , 其 中 Z 


Ce J 


. _ Di(w) exp(—a,), if hlæ) = f(x) 
是 规范 化 因子 ， 以 确保 Pee a7 ela) tua 
Digi Ta. — Pela exp (— afie) hete) 
8: end for 


输出 : H (a) = sign p arhi(æ)) 


图 8.3 AdaBoost ik 
41 H (x) 能 令 指 数 损失 函数 最 小 化 , MA Res (8.5) H (x) 的 俩 导 


Oexp(H |D) _ 


—e T 2) = 1 | x) +e4%@) eS — 1. | .6 
aH (a) *@) P( f(x) =1| 2) +e" P(f(w)=—-1| x), (8.6) 
令 式 (8.6) 为 零 可 解 得 
a— l, PU) =11 2) | 
Aa) = 5 In PO = iTy ， (8.7) 
因此 , 有 
| 1 PU(@) = 1) 2) 
sign (H (a) ) = sign (3 In meso) 
这 忽略 了 f(x) = 
ba) = PUG) = _ fi, PUY) =11 2) > PU@) = -1 |x) 
mum -1, P(f(@) = 11z) < PUf(@) = -1| æ) 
= arg max P(f (x) = y | æ) , (8.8) 


ye{—1,1} 
这 意味 着 sign (五 (z)) 达到 了 贝 叶 斯 最 优 错误 率 . 换言之 , 若 指数 损失 函数 最 小 


化 , 则 分 类 错误 率 也 将 最 小 化 ; 这 说 明 指数 损失 函数 是 分 类 任务 原本 0/1 损失 
gt RA RAKES E PR Br HI — BEAN (consistent) HARIR BH BC. 由 于 这 个 蔡 代 函数 有 更 好 的 数学 性 


8.2 Boosting 
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M, PONE IEE] He A, 因此 我 们 用 它 奉 代 0/1 损失 函数 作为 优化 目标 . 

在 AdaBoost 算 法 中 , 第 一 个 基 分 类 器 hy 是 通过 直接 将 基 学 习 算 法 用 于 初 
始 数据 分 布 而 得 ; 此 后 迭代 地 生成 ht 和 oa, 当 基 分 类 器 hi 基于 分 布 Di 产生 后 ， 
该 基 分 类 器 的 权重 ay 应 使 得 arch, 最 小 化 指数 损失 函数 


a lathi | Dt) = Erp, Je F(@ache(w)) 
= Ez~p, |e “I (f (x) = he (x)) + e™I (f (x) F he (2))| 
=~ Pap, (f (a) = he (®)) + e% Pano, (f (2) + he (2)) 
=e “*(l—e&)+e“eE , (8.9) 
其 中 ee = Penn, (hi(Z) A f(x)). 考虑 指数 损失 函数 的 导数 


OlLexp (athe | Di) 


Da, —e~ (1 — e) + ee; , (8.10) 
令 式 (8.10) 为 零 可 解 得 
a 5 In (=) | (8.11) 
这 恰 是 图 8.3 PAE 6 FTA AAR AM BS pt 2 sk. 
AdaBoost 算法 在 获得 Hia 之 后 样本 分 布 将 进行 调整 , 使 下 一 轮 的 基 学 习 


as he REZY IE Hiei 的 一 些 错误 . 理想 的 he 能 纠正 Hi- 的 全 部 错误 , 即 最 小 化 


bexp(H:_1 + hi | D) = En~ple7f(@) He-1 (@) +he(e))] 
= Ez.~ple—f@) At-1(@) e— Fe) hl), (8.12) 


注意 到 f? (x) = 有 (x) = 1, 式 (8.12) 可 使 用 ef) 的 泰勒 展 式 近 似 为 

orp (Hii + he | D) = Eonp |e Tma (1 fære) + Feite) 
— Ep ero) (a — f(a) hee) + z) (8.13) 

于 是 , 理想 的 基 学 习 器 


hy (a) = arg min fexp(Hit-1 + A | D) 
h 


S$ 


_ asmin tao [rone (1 penne) +3) 
h 


= arg max Eo~p |e OH F(a)h(w)| 
h 


e` T (x)H:—1(Œ) 
= arg max BoD | 下- pi OMe) (8.14) 
注意 到 Esope eH) 是 一 个 常数 . 令 Dy 表示 一 个 分 布 
~ D(aw)e~f@) He-1(@) | 
WU ats es BC AERE, 这 等 价 于 令 
e` f(x) He_-1(x) 
h(x) = arg max ED Epe omne J ee) 
= arg max ExpD, [f(x)h(x)] . (8.16) 
h 
FA f(a), h(a) € {一 1, 十 1}, 有 
f(w)h(w) =1—21(f(@) A h(æ)) , (8.17) 
WU SB AE SE AF 
h,(x) = arg min Ez~p, [I(f(x) Æ h(@x))] - (8.18) 
h 


由 此 可 见 , 理想 的 hi 将 在 分 布 Di 下 最 小 化 分 类 误 兰 . AL, 弱 分 类 船 将 基于 分 
A Di 来 训练 , 且 针 对 Di 的 分 类 误差 应 小 于 0.5. RE- EER ERII “IRAE 
近 ” 的 思想 . 25 RS De 和 Di WKAR, 有 


D (x) e~f(@)He(@) 
Ez~D [e~f(@)He@)] 
D (a) e7 f (@) Ht-1(@) e-f (e)aehe (x) 
E Erop le— f(x) Mt (x)] 


Dir1 (x) = 


= H, -f 
= Di (2) - eS (æ)arhi(æ) 也 ~ le aia 1(æ)] 


Ep e TOn > 819) 


8.2 Boosting 


偏差 /方差 参见 2.5 T. 
决策 树桩 即 单 层 决策 树 ， 
参见 4.3 节 . 


集成 的 规模 指 集 成 中 包 
会 的 个 体 学 习 器 数目 . 
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IAEA 8.3 中 算法 第 了 行 的 样本 分 布 更 新 公式 ， 


FÆ, 由 式 (8.11) 和 (8.19) 可 见 , 我 们 从 基于 加 性 檬 型 壬 代 式 优化 指数 损失 
函数 的 角度 推导 出 了 图 8.3 的 AdaBoost 算法 . 


Boosting 算法 要 求 基 学 习 器 能 对 特定 的 数据 分 布 进 行 学 习 , 这 可 通过 “ 重 
赋 权 法 ”(re-weighting) 实 施 , 即 在 训练 过 程 的 每 一 轮 中 , 根据 样本 分 布 为 每 个 
训练 样本 重新 赋予 一 个 权重 . 对 无 法 接受 带 权 样本 的 基 学 习 算 法 , 则 可 通过 
“ 重 采 样 法 ”(re-sampling) 来 处 理 , 即 在 每 一 轮 学 习 中 , 根据 样本 分 布 对 训练 
集 重 新 进行 采样 , 再 用 重 采 样 而 得 的 样本 集 对 基 学 习 器 进行 训练 . 一 般 而 言 , 这 
两 种 做 法 没有 显著 的 优 劣 差别 . TERRA AE, Boosting 算法 在 训练 的 每 一 轮 都 
要 检查 当前 生成 的 基 学 习 器 是 否 满足 基本 条 件 (例如 图 8.3 的 第 5 行 , 检查 当前 
基 分 类 器 是 和 否 是 比 随 机 猜测 好 ), 一 旦 条 件 不 满足 , 则 当前 基 学 习 器 即 被 抛弃 ， 
且 学 习 过 程 停 止 . 在 此 种 情形 下 , 初始 设置 的 学 习 轮 数 人 也许 还 远 未 达到 , 可 能 
导致 最 终 集成 中 只 包含 很 少 的 基 学 习 器 而 性 能 不 佳 . 若 采 用 “ 重 采 样 法 ”, 则 
可 获得 “重启 动 ” 机 会 以 避免 训练 过 程 过 早 停止 [Kohavi and Wolpert, 1996], 
即 在 抛弃 不 满足 条 件 的 当前 基 学 习 器 之 后 , 可 根据 当前 分 布 重新 对 训练 样本 进 
行 采样 , 再 基于 新 的 采样 结果 重新 训练 出 基 学 习 器 , 从 而 使 得 学 习 过 程 可 以 持 
续 到 预 设 的 工 轮 完成 . 


从 偏差 -方差 分 解 的 角度 看 ,，Boosting 主要 关注 降低 偏差 , 因此 Boosting 
能 基于 泛 化 性 能 相当 弱 的 学 习 器 构建 出 很 强 的 集成 . 我 们 以 决策 树桩 为 基 学 习 
as, 在 表 4.5 的 西瓜 数据 集 3.0 上 运行 AdaBoost 算法 , 不 同 规模 (size) 的 集成 
及 其 基 学 习 器 所 对 应 的 分 类 边界 如 图 8.4 所 示 . 


D. 2 0.a p 


qh 
ff ee 


wel J 
nee á a 
(a) 3 个 基 学 习 吕 (b) 5 个 基 学 习 器 (c) LIF APAS 


图 8.4 西瓜 数据 集 3.0a 上 AdaBoost 集成 规模 为 3、5、11 时 , 集成 (红色 ) 与 基 学 习 
器 (黑色 ) 的 分 类 边界 . 


SS 


8.3 Bagging 与 随机 森林 


由 8.1 市 可 知 , 欲 得 到 泛 化 性 能 强 的 集成 , 集成 中 的 个 体 学 习 器 应 尽 可 能 相 
AARNE; 虽然 “独立 ”在 现实 任务 中 无 法 做 到 , 但 可 以 设法 使 基 学 习 器 尽 可 能 
AA RAW Zor. 给 定 一 个 训练 数据 集 , 一 种 可 能 的 做 法 是 对 训练 样本 进行 水 
样 , 产生 出 若干 个 不 同 的 子 集 , 再 从 每 个 数据 子 集中 训练 出 一 个 基 学 习 器 . 这 
Fe, 由 于 训练 数据 不 同 , 我 们 获得 的 基 学 习 器 可 望 具有 比较 大 的 差异 . 然而 , 为 
获得 好 的 集成 , BEAT TA] IN Hs BP AS a TS EA Ze. 如 果 采 样 出 的 每 个 子 集 
都 完全 不 同 , 则 每 个 基 学 习 帮 只 用 到 了 一 小 部 分 训练 数据 , 甚至 不 足以 进行 有 
效 学 习 , 这 显然 无 法 确保 产生 出 比较 好 的 基 和 学 习 右 . 为 解决 这 个 问题 , 我 们 可 考 
许 使 用 相互 有 区 稚 的 订 样 子 集 . 


8.3.1 Bagging 
Bagging R14 FA th Bagging [Breiman, 1996a] 是 并 行 式 集成 学 习 方 法 最 闭 名 的 代表 . 从 名 字 即 


BO 可 看 出 , 它 直 接 基于 我 们 在 2.2.3 节 介 绍 过 的 自助 采样 法 (bootstrap sampling). 
给 定 包 含 m 个 样本 的 数据 集 , 我 们 先 随机 取出 一 个 样本 放 入 采样 集中 , 再 把 该 
样本 放 回 初始 数据 集 , 使 得 下 次 采样 时 该 样本 仍 有 可 能 被 选中 , 这 样 , 经 过 m 
次 随机 采样 操作 , 我 们 得 到 含 m 个 样本 的 采样 集 , 初始 训练 集中 有 的 样本 在 采 
样 集 里 多 次 出 现 , 有 的 则 从 未 出 现 . 由 式 (2.1) 可 知 , 初始 训练 集中 约 有 63.2% 
的 样本 出 现在 采样 集中 . 
照 这 样 , 我 们 可 采样 出 工 个 合 m 个 训练 样本 的 采样 集 , 然后 基于 每 个 采样 
集训 练 出 一 个 基 学 习 器 , 再 将 这 些 基 学 习 器 进行 结合 . 这 就 是 Bagging 的 基本 
流程 . 在 对 预测 输出 进行 结合 时 , Bagging 通常 对 分 类 任务 使 用 简单 投票 法 , 对 
Ae. SARA 回归 任务 使 用 简单 平均 法 . 车 分 类 预测 时 出 现 两 个 类 收 到 同样 票数 的 情形 , 则 
最 简单 的 做 法 是 随机 选择 一 个 , 也 可 进一步 考察 学 习 器 投票 的 置信 度 来 确定 最 
终 胜 者 . Bagging 的 算法 搬 述 如 图 8.5 所 示 . 


输入 : 训练 集 D = a yi), (£2, Y2), -- , (Em, Ym)}; 


基 学 习 算 法 L 
训练 轮 数 工 . 
程 : 
1: for t = 1,2,..., T do 
Dps 是 自助 采样 产生 的 2: hi = £(D, Dis) 
样本 分 布 . 3: end for 


输出 : H(a) = arg max $, (hlæ) = y) 
yey 


图 8.5 Bagging 算法 


8.3 Bagging 与 随机 森林 


为 处 理 多 分 类 或 回归 人 尾 
务 , AdaBoost 需 进 行 修 改 ; 
目前 已 有 适用 的 变 体 萌 法 
[Zhou, 2012]. 


和 色 , 外 属 计 泰 见 2.2.3 节 . 


偏差 /方差 参见 2.5 节 . 


美 于 样本 扰动 B&R 
8.5.3 节 ， 
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假定 基 学 习 器 的 计算 复杂 度 为 Olm), W Bagging 的 复杂 上 度 大 致 为 
T(O(m)+O(s)), 考虑 到 采样 与 投票 /平均 过 程 的 复杂 度 O(s) (RA, m T 
通常 是 一 个 不 太 大 的 常数 , 因此 , 训练 一 个 Bagging 集成 与 直接 使 用 基 学 习 算 
法 训练 一 个 学 习 器 的 复 沐 度 同 阶 , 这 说 明 Bagging 是 一 个 很 融 效 的 集成 学 习 算 
法 . 另外 , 与 标准 AdaBoost 只 适用 于 二 分 类 任务 不 同 , Bagging 能 不 经 修改 地 
用 于 多 分 类 、 回 归 等 任务 . 

值得 一 提 的 是 , 自助 采样 过 程 还 给 Bagging 带 来 了 另 一 个 优点 : 由 于 每 个 
基 学 习 器 只 使 用 了 初始 训练 集中 约 63.2% 的 样本 , 剩 下 约 36.8% 的 样本 可 用 作 
验证 集 来 对 泾 化 性 能 进行 “ 包 外 估计 ”(out-of-bag estimate) [Breiman, 1996a; 
Wolpert and Macready, 1999]. 为 此 需 记 录 每 个 基 学 习 器 所 使 用 的 训练 样本 . 
不 妨 令 Di 表示 he 实际 使 用 的 训练 样本 集 , 令 H (x) 表示 对 样本 x 的 包 外 预 
W, BUM AS RS ABLEA ED æ VRAE AEE oe 上 的 预测 , 有 


T 
H°®(x) = arg max X I(h(æ) = y) -I(x é Di), (8.20) 
yE t=1 
则 Bagging 泛 化 误差 的 包 外 估计 为 
comb = 并 LH) y). (8.21) 
(x,yJED 

FKE, 包 外 样本 还 有 许多 其 他 用 途 . 例如 当 基 学 习 器 是 决策 树 时 , 可 使 用 
包 外 样本 来 辅助 剪 校 , 或 用 于 估计 决策 树 中 各 结 点 的 后 验 概率 以 辅助 对 零 训练 
样本 结 点 的 处 理 ; 当 基 学 习 器 是 神经 网 络 时 , 可 使 用 包 外 样本 来 辅助 早期 停止 
以 减 小 过 拟 合 风险 . 

从 偏差 -方差 分 解 的 角度 看 , Bagging 主要 关注 降低 方 闫 , ALE FER Be 
决策 树 、 神 经 网 络 等 易 受 样本 扰动 的 学 习 器 上 效用 更 为 明显 . 我 们 以 基于 信息 
增 王 划分 的 决策 树 为 基 学 习 北 , 在 表 4.5 的 西瓜 数据 集 3.0a 上 运行 Bagging 4 
法 , 不 同 规模 的 集成 及 其 基 学 习 器 所 对 应 的 分 类 边界 如 图 8.6 所 示 . 


8.3.2 随机 森林 


随机 森林 (Random Forest, 简称 RF) [Breiman, 200la] 是 Bagging 的 一 个 
TREIE. RE 在 以 决 集 例 为 基 学 习 器 构建 Bagging 集成 的 基础 上 , 进一步 在 
决策 树 的 训练 过 程 中 引入 了 随机 属性 选择 . 具体 来 说 , 传统 决策 树 在 选择 划分 
属性 时 是 在 当前 结 点 的 属性 集合 (假定 有 a 个 属性 ) 中 选择 一 个 最 优 属性 ; 而 在 
RF HF, 对 基 决 策 树 的 每 个 结 点 , 先 从 该 结 点 的 属性 集合 中 随机 选择 一 个 包含 
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FE E FE E 
(a) 3 个 基 学 习 器 (b) 5 个 基 学 习 器 (b) IAS 


8.6 西瓜 数据 集 3.00 上 Bagging 集成 规模 为 3、5、11 时 , 集成 (红色 ) 与 基 学 习 
器 (黑色 ) 的 分 类 边界 . 


个 属性 的 子 集 , 然后 再 从 这 个 子 集 中 选择 一 个 最 优 属性 用 于 划分 . 这 里 的 参数 
控制 了 随机 性 的 引入 程度 : FS k = d, 则 基 决 策 树 的 构建 与 传统 决策 树 相 同 ; 
Bek =1, 则 是 随机 选择 一 个 属性 用 于 划分 ; 一 般 情 况 下 , HEE k = logad 
(Breiman, 2001a]. 

随机 森林 简单 、 容 易 实 现 、 计 算 开 销 小 , 令 人 惊奇 的 是 , 它 在 很 多 现实 任 
务 中 展现 出 强大 的 性 能 , 被 誉 为 “代表 集成 学 习 拉 术 水 平 的 方法 ”. 可 以 看 出 ， 
随机 森林 对 Bagging 只 做 了 小 改动 , 但 是 与 Bagging 中 基 学 习 器 的 “多 样 性 ” 
仅 通 过 样本 扰动 (通过 对 初始 训练 集 采 样 ) 而 来 不 同 , 随机 森林 中 基 学 习 器 的 多 


ATRAN. WEH 样 性 不 仅 来 自 样本 扰动 , 还 来 自 属性 扰动 , 这 就 使 得 最 终 集 成 的 泛 化 性 能 可 通 


A, 参见 8.5.3 Y. 


过 个 体 学 习 占 之 间 差 寞 虔 的 增加 而 进一步 提升 . 

随机 森林 的 收敛 性 与 Bagging 相似 . 如 图 8.7 所 示 , 随机 森林 的 起 始 性 能 
往往 相对 较 差 , 特别 是 在 集成 中 只 包含 一 个 基 学 习 器 时 . 这 很 容易 理解 , 因为 通 
过 引入 属性 扰动 , 随机 森林 中 个 体 学 习 器 的 性 能 往往 有 所 降低 . 然而 , 随 着 个 体 


一 一 随机 森林 0.028 


-一 =- Bagging 


一 一 随机 梓 困 
----- Bagging 


0.024 


0.020; 


0.016 


MARRE 


ee 
A 


= 0.012} 


0.0080 — 


z . , 0.04 Le 
| 10 10° LO 10° 10 10° 10 
EQKSRE 基 分 类 器 数量 
(a) glass 数据 集 (b) auto-mpg 数据 集 


8.7 在 两 个 UCI 数据 上 , 集成 规模 对 随机 森林 与 Bagging 的 影响 
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学 习 器 数目 的 增加 , 随机 森林 通常 会 收敛 到 更 低 的 泛 化 误差 . 值得 一 提 的 是 , 随 
机 和 森林 的 训练 效率 当 优 于 Bagging, 因为 在 个 体 决策 树 的 构建 过 程 中 , Bagging 
使 用 的 是 “确定 型 ”决策 树 , 在 选择 划分 属性 时 要 对 结 点 的 所 有 属性 进行 考察 ， 
而 随机 森林 使 用 的 “随机 型 ”决策 树 则 只 需 考 察 一 个 属性 子 集 . 


4 结合 策略 


学 习 器 结合 可 能 会 从 三 个 方面 带 来 好 处 [Dietterich, 2000]: 首先 , 从 统计 
的 方面 来 看 , 由 于 学 习 任 务 的 假设 空间 往往 很 大 ， 可 能 有 多 个 假设 在 训练 集 上 
达到 同等 性 能 , 此 时 车 使 用 单 学 习 器 可 能 因 误 选 而 导致 泛 化 性 能 不 佳 , 结合 
个 学 习 器 则 会 减 小 这 一 风险 ; 第 二 , 从 计算 的 方面 来 看 , 学 习 算 法 往往 会 陷入 局 
部 极 小 , 有 的 局 部 极 小 点 所 对 应 的 泛 化 性 能 可 能 很 糟糕 , 而 通过 多 次 运行 之 后 
进行 结合 , 可 降低 陷入 糟糕 局 部 极 小 点 的 风险 ; 第 三 , 从 表示 的 方面 来 看 , 某 些 
学 习 任务 的 其 实 俱 设 可 能 不 在 当前 学 习 守法 所 考虑 的 假发 空间 中 ， 此 时 车 使 用 
单 学 习 器 则 肯定 无 效 , 而 通过 结合 多 个 学 习 器 , 由 于 相应 的 假设 空间 有 所 扩大 ， 
有 可 能 学 得 更 好 的 近似 . 图 8.8 给 出 了 一 个 直观 示意 图 . 


同等 性 能 的 假设 假设 空间 
ra eao 
pa A Am AAA 
8 ha ā hie I A ; 
7 NS > ho. | 
| ' " 7 a | \ Aig a ae 
| iN fy : iN C f, 
anaa Sa ha a i 
he | ND) 真实 假设 
(a) 统计 的 原 医 (b) 计算 的 原因 (c) 表示 的 原因 


图 8.8 学 习 器 结合 可 能 从 三 个 方面 带 来 好 处 [Dietterich, 2000] 


BERRES T AEJ A {hi， hr}, 其 中 hi 在 示例 x 上 的 输出 
为 hilæ). 本 节 介 绍 几 种 对 hy 进行 At 


8.4.1 平均 法 
对 数值 型 输出 hix) E R, 最 凋 匈 的 结合 策略 是 使 用 平均 法 (averaging). 


。 简单 平均 法 (simple averaging) 


T 
Har- = ST hi(a) . (8.22) 
1=1 
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Breiman [1996b] 在 研究 
Stacking 回归 时 发 现 ,' 达 须 
使 用 非 负 权重 才能 确保 集 
成 性 能 优 于 单一 最 佳 个 体 
学习 器 ,因此 在 集成 学 习 
中 一 般 对 学 习 器 的 权重 施 
以 非 负 约束 . 


例如 估计 出 个 体 等 习 器 
的 误差 ,然后 令 权 重大 小 
与 误差 大小 成 反比 . 


e 加 权 平 均 法 (weighted averaging) 


T 
H(x) = $ whi(w) . (8.23) 
i=1 


T 
其 中 w 是 个 体 学 习 器 hi 的 权重 , 通常 要 求 w 0, 》 w= 1. 


i=1 

显然 , 简单 平均 法 是 加 权 平 均 法 令 wi; = 1/T 的 特例 . 加 权 平 均 法 在 二 十 世 
纪 五 十 年 代 已 被 广汉 使 用 [Markowitz, 1952], [Perrone and Cooper, 1993] 正式 
将 其 用 于 集成 学 习 . 它 在 集成 学 习 中 具有 特别 的 意义 , 集成 和 学习 中 的 各 种 结合 
方法 都 可 视 为 其 特例 或 变 体 . 事实 上 , 加 权 平 均 法 可 认为 是 集成 学 习 研 究 的 基 
本 出 发 点 , 对 给 定 的 基 学 习 器 , 不 同 的 集成 学 习 方 法 可 视 为 通过 不 同 的 方式 来 
确定 加 权 平 均 法 中 的 基 学 习 旭 权重. 

加 权 平 均 法 的 权重 一 般 是 从 训练 数据 中 学 习 而 得 , 现实 任务 中 的 训练 样本 
通常 不 充分 或 存在 噪声 , 这 将 使 得 学 出 的 权重 不 完全 可 靠 . 尤其 是 对 规模 比较 
大 的 集成 来 说 , 要 学 习 的 权重 比较 多 , 较 容 易 导 致 过 拟 合 . 因此 , 实验 和 应 用 均 
显示 出 , 加 权 平 均 法 未 必 一 定 优 于 简单 平均 法 [Xu et al., 1992; Ho et al., 1994; 
Kittler et al., 1998]. 一 般 而 言 , 在 个 体 学 习 器 性 能 相 寺 较 大 时 家 使 用 加 权 平 均 
法 , 而 在 个 体 学 习 器 性 能 相近 时 宜 使 用 简单 平均 法 . 

8.4.2 投票 法 

对 分 类 任务 来 说 , 学 习 器 h 将 从 类 别 标记 集合 {c1,c2,...,en} 中 预测 出 一 
个 标记 , 最 常见 的 结合 策略 是 使 用 投票 法 (voting). 为 便于 讨论 , 我 们 将 hi 在 样 
本 oc 上 的 预测 输出 表示 为 一 个 N 维 向 量 (A (ae); h?(ax);...; hN (ax)), 其 中 (zx) 
是 hi 在 类 别 标记 cj 上 的 输出 . 


e 绝对 多 数 投票 法 (majority voting) 


if Soh! > S AE (æ) 
H (a) = ci i 2 IT > D 2 Tps (8.24) 
reject, otherwise. 
ARE ef, WM A pid; A FE E F. 
e 相对 多 数 投票 法 (plurality voting) 
H(a)=c (8.25) 


arg max ro hl (æ). 
j 


8.4 结合 策略 


“多 数 授 票 法 ”的 英文 
术语 使 用 不 太一 致 : 有 文 


献 称 为 majority voting, 也 


有 直接 称 为 voting. 


例如 异 质 集 成 中 不 同类 
型 的 个 体 学 习 器 . 


Stacking 本 身 是 一 种 著 
名 的 集成 学 习 方法 , 且 有 
不 少 集 成 学 习 算 法 可 视 为 
HERR. CHA 
作 一 种 特殊 的 结合 策略 ， 
因此 本 书 在 此 介绍 . 
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即 预测 为 得 票 最 多 的 标记 , 若 同 时 有 多 个 标记 获 最 高 票 , 则 从 中 随机 选取 


e 加 权 投 票 法 (weighted voting) 


H(x) =c (8.26) 


arg max Ti wiht (a) . 
j 


T 
与 加 权 平 均 法 类 似 , wi 是 hi 的 权重 , 通常 wi o0, D w = 1. 
i=l 


标准 的 绝对 多 数 投 票 法 (8.24) 提 供 了 “拒绝 预测 ”选项 , 这 在 可 靠 性 要 求 
较 高 的 学 习 任 务 中 是 一 个 很 好 的 机 制 . 但 若 学 习 任 务 要 求 必须 提供 预测 结果 ， 
则 绝对 多 数 投票 法 将 退化 为 相对 多 数 投 票 法 . 因此 , 在 不 允许 拒绝 预测 的 任务 
中 , 绝对 多 数 、 相 对 多 数 投票 法 统称 为 “多 数 投票 法 ”. 

式 (8.24)~(8.26) 没 有 限制 个 体 学 习 器 输出 值 的 类 型 . 在 现实 任务 中 , 不 同 
类 型 个 体 学 习 器 可 能 产生 不 同类 型 的 及 (zx) 值 , 常见 的 有 : 


- 类 标记 : 及 (x) € {0,1}, 若 hi 将 样本 x 预测 为 类 别 cj 则 取 值 为 1, 否则 为 
0. 使 用 类 标记 的 投票 亦 称 “ 硬 投票 ”(hard voting). 


- 类 概率 : 及 (zz) € [0,1], 相当 于 对 后 验 概 率 P(c | x) 的 一 个 估计 . 使 用 类 
概率 的 投票 亦 称 “ 软 投票 ”(soft voting). 


不 同类 型 的 h (ae) 值 不 能 混用 .对 一 些 能 在 预测 出 类 别 标记 的 同时 产生 
DR a REN SF ol at, 其 分 类 阐 信 和 度 可 转化 为 类 概率 使 用 . 奋 此 类 值 未 进 
AT PRE 4E, Bi GU Se FF A) BLY oP SR TB) BS fe, 则 必须 使 用 一 些 技术 如 Platt Afi 
放 (Platt scaling) [Platt, 2000]、 等 分 回归 (isotonic regression) [Zadrozny and 
Elkan, 2001|] 等 进行 “校准 ”(calibration) 后 才能 作为 类 概率 使 用 . 有 趣 的 是 ， 
虽然 分 类 器 估计 出 的 类 概率 值 一 般 都 不 太 准 确 , 但 基于 类 概率 进行 结合 却 往 往 
比 直 接 基 于 类 标记 进行 结合 性 能 更 好 . 需 注意 的 是 , 若 基 学 习 器 的 类 型 不 同 , 则 
其 类 概率 值 不 能 直接 进行 比较 ; 在 此 种 情形 下 , 通常 可 将 类 概率 输出 转化 为 类 
标记 输出 (例如 将 类 概率 输出 最 大 的 2 (ac) BE 1, 其 他 设 为 0) 然后 再 投票 . 
8.4.3 学 习 法 

当 训 练 数据 很 多 时 , 一 种 更 为 踢 大 的 结合 全 略 是 使 用 “和 尝 习 法”, 即 通 过 
另 一 个 学 习 器 来 进行 结合 . Stacking [Wolpert, 1992; Breiman, 1996b] 是 学 习 法 
的 典型 代表 . 这 里 我 们 把 个 体 学 习 器 称 为 初级 学 习 器 , 用 于 结合 的 学 习 器 称 为 
RAF >I 4 WCF >) A (meta-learner). 
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初级 学 习 器 也 可 是 同 质 
ay, 


使 用 初级 学 习 算 法 Ly 
产生 初级 学 习 器 hr. 


生成 次 级 训练 集 . 


在 D' 上 用 次 级 学 习 算 
法 名 产 生 次 级 学 习 器 hh/. 


MLR 是 基于 线性 回归 的 
分 类 器 ,， 它 对 每 个 类 分 别 
进行 线性 回归 ,属于 该 类 
的 训 钴 样 例 所 对 应 的 输出 
被 置 为 1， 其 他 类 置 为 0; 
测试 示例 将 被 分 给 输出 值 
最 大 的 类 . 


WEKA 中 的 StackingC 
算法 就 是 这 样 实现 的 . 


Stacking 先 从 初始 数据 集训 练 出 初级 学 习 器 , 然后 “生成 ”一 个 新 数据 集 
用 于 训练 次 级 学 习 器 . 在 这 个 新 数据 集中 , 初级 学 习 器 的 输出 被 当 作 样 例 输 入 
特征 , 而 初始 样本 的 标记 仍 被 当 作 样 例 标记 . Stacking 的 算法 描述 如 图 8.9 所 
示 , 这 里 我 们 假定 初级 学 习 器 使 用 不 同学 习 算 法 产生 , 即 礼 级 集成 是 异 质 的 . 


输入 : 训练 集 D {(%1, y1), (@2, Y2), , (Em, Ym )}; 
RYA £1, &2,..., ET; 
次 级 学 习 算 法 L. 


1: for t = 1,2,..., T do 
2: At = & (D); 

3: end for 

4: Di = Ø: 

5: for i = 1,2,..., m do 
6: for t = 1,2,..., T do 
T: Zit = hlæ); 

8: end for 


9: D! = D'U ((2a1, Zi2;-- 
10: end for 
11: h’ = &( D"); 

输出 : H(z) 一 h'(hi(a), ha(ax), rey hp (x)) 


+ , er), Yi); 


图 8.9 Stacking 算法 


在 训练 阶段 , 次 级 训练 集 是 利用 初级 学 习 器 产生 的 , A BB A a 
的 训练 集 来 产生 次 级 训练 集 , 则 过 拟 合 风险 会 比较 大 ; 因此 , 一 般 是 通过 使 用 交 
叉 验 证 或 留 一 法 这 样 的 方式 , 用 训练 初级 学 习 器 未 使 用 的 样本 来 产生 次 级 学 习 
器 的 训练 样本 . 以 玉 折 交叉 验证 为 例 , 初始 训练 集 DD 被 随机 划分 为 天 个 大 小 相 
似 的 集合 Di, D2,...,Dk. S Di FLD; = D\ Dj 分 别 表示 第 7 折 的 测试 集 和 
训练 集 . 给 定 工 个 初级 学 习 算 法 , MRA nl? 通过 在 D; 上 使 用 第 上 个 学 
习 算 法 而 得 . 对 Di 中 每 个 样本 zi 令 za = AY? (ari), 则 由 x 所 产生 的 次 级 训 
练 样 例 的 示例 部 分 为 zi = (211; 212;---; Zer), 标记 部 分 为 yi TE, TERE PALM 
验证 过 程 结束 后 , 从 这 人 个 初级 学 习 器 产生 的 次 级 训练 集 是 D’ = {(zi, yi) E, 
然后 D 将 用 于 训练 次 级 学 习 器 . 

次 级 学 习 器 的 输入 属性 表示 和 族 级 学 习 算 法 对 Stacking 集成 的 泛 化 性 能 
有 很 大 影响 . 有 研究 表明 , 将 初级 学 习 器 的 输出 类 概率 作为 次 级 学 习 器 的 输入 
属性 , 用 多 响应 线性 回归 (Multi-response Linear Regression, 简称 MLR) 作为 
次 级 学 习 算 法 效果 较 好 [Ting and Witten, 1999], 在 MLR 中 使 用 不 同 的 属性 
集 更 佳 [Seewald, 2002]. 


8.5 多样 性 
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贝 叶 斯 模型 平均 (Bayes Model Averaging, 简称 BMA) 基 于 后 验 概率 来 为 
不 同 模 型 赋予 权重 , 可 视 为 加 权 平 均 法 的 一 种 特殊 实现 . [Clarke，2003] 对 
Stacking 和 BMA 进行 了 比较 . 理论 上 来 说 , 车 数据 生成 模型 恰 在 当前 考虑 的 
模型 中 , 且 数 据 噪 声 很 少 , M) BMA 不 差 于 Stacking; 然而 , 在 现实 应 用 中 无 法 
确保 数据 生成 模型 一 定 在 当前 考虑 的 模型 中 , 甚至 可 能 难以 用 当前 考虑 的 模型 
来 进行 近似 , 因此 , Stacking 通常 优 于 BMA, 因为 其 鲁 棒 性 比 BMA 更 好 , mE 
BMA 对 模型 近似 误差 非常 敏感 . 


8.5 多 样 性 


8.5.1 误差 -分 歧 分 解 
8.1 TEF, 欲 构 建 弃 化 能 力 强 的 集成 , 个 体 学 习 器 应 “好 而 不 同 ”. 现在 
我 们 来 做 一 个 简单 的 理论 分 析 . 
假定 我 们 用 个 体 学 习 器 hi, hz,...,hr 通过 加 权 平 均 法 (8.23) 结 合 产 生 的 
集成 来 完成 回归 学 习 任 务 f: RAO R MRP a, 定义 学 习 器 h 的 “分 
kk” (ambiguity) 4 
A(h, | x) = (hi(a) — H(a))* , (8.27) 


则 集成 的 “分 卜 ” 是 


Ah | æ) = YD ,wiA(hi|z) 
=> wi(hi (æ) — H (æ) )? . (8.28) 
显然 , TEH “ope” MRI T ARS EEE oo 上 的 不 一 致 性 , 即 在 
一 定 程 度 上 反映 了 个 体 学 习 器 的 多 样 性 . 个 体 学 习 器 h 和 集成 H 的 平方 误差 
分 别 为 

E(h; | x) = (f(a) — hi(w))” , (8.29) 
E(H | x) = (f(z)— H(z)) . (8.30) 

S Bh | x) = SL, wi. (hi | z) 表示 个 体 学 习 器 误差 的 加 权 均 值 , 有 


T' 
A(h |x) = > wiE(hi | £) — E(H | æ) 


i=1 


= E(h| a) — E(H | æ) . (8.31) 
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这 里 我 们 用 E: 和 A 简 
化 表示 EE(hi) 和 Alhi). 


RPA E AEAT 
E(H). 


亦 称 “ 状 异性 度量 ”. 


第 8 章 集成 学 习 


式 (8.31) 对 所 有 样本 x 均 成 立 , 令 plx) 表示 样本 的 概率 密度 , 则 在 全 样本 
上 有 


T T 
dow f 40 | z)p(a)da = dw | Elh | æ)p(x)dæ - /Bn | xjp(æ)dzæ . 


(8.32) 
类 似 的 , 个 体 学 习 器 hi 在 全 样本 上 的 泛 化 误差 和 分 歧 项 分 别 为 
E; = | E(u | æ)p(æ)da , (8.33) 
A= | Alhi | æ)p(æ)da . (8.34) 
集成 的 泛 化 误差 为 
p= J E(H | x)p(æ)dz . (8.35) 


将 式 (8.33)~(8.35) 代 入 式 (8.32), HS E = DL] wiki 表示 个 体 学 习 器 泛 
化 误差 的 加 权 均 值 , A = DL wA 表示 个 体 学 习 器 的 加 权 分 歧 值 , 有 


E=E-A. (8.36) 


式 (8.36) 这 个 漂亮 的 式 子 明确 提示 出 : 个 体 学 习 器 准确 性 越 高 、 多 样 性 越 
K, 则 集成 越 好 . 上 面 这 个 分 析 首 先 由 [Krogh and Vedelsby, 1995] 给 出 , 称 为 
“误差 -分 虐 分 解 ”(error-ambiguity decomposition). 


至 此 , 读者 可 能 很 高 兴 : 我 们 直接 把 E — A 作为 优化 目标 来 求解 , 不 就 能 
得 到 最 优 的 集成 了 ?遗憾 的 是 , 在 现实 任务 中 很 难 直接 对 E 一 A 进行 优化 , 不 
仅 由 于 和 它们 是 定义 在 整个 样本 空间 上 , 还 由 于 4 不 是 一 个 可 直接 操作 的 多 样 性 
EE, 它 仅 在 集成 构造 好 之 后 才能 进行 信 计 . 此 外 需 注 意 的 是 , 上 面 的 推导 过 程 
只 适用 于 回归 学 习 , 难以 直接 推广 到 分 类 学 习 任 务 上 去 . 


8.5.2 多 样 性 度量 


顾名思义 , 多 样 性 度量 (diversity measure) 是 用 于 度量 集成 中 个 体 分 类 器 的 
多 样 性 , 即 估 算 个 体 学 习 器 的 多 样 化 程度 . 典型 做 法 是 考虑 个 体 分 类 器 的 两 两 
相似 /不 相似 性 . 
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给 定数 据 集 D = {(21, y1), (@2,42),---,(@ms¥m)}, 对 二 分 类 任务 , y; € 


参见 2.3.2 FLA. {一 1, 十 1}, 分 类 器 hi 与 h; 的 预测 结果 列 联 表 (contingency table) 为 


其 中 , a 表示 hi 与 hj 均 预 测 为 正 类 的 样本 数目 ; 5、c、d 含义 由 此 类 推 ; 
at+tb+ctd=m. 基于 这 个 列 联 表 , 下面 给 出 一 些 常见 的 多 样 性 度量 . 
e 不 合 度 量 (disagreement measure) 


disij = e (8.37) 


disi; 的 值 域 为 [0, 1]. 值 越 大 则 多 样 性 越 大 . 
e 相关 系数 (correlation coefficient) 


ad — be 


Mi "Tat batele+db+d) 


pij 的 值 域 为 [-1,1]. Æ hi 与 hj; ER, 则 值 为 0; Æ hi hj 正 相 关 则 值 
HE, ETWA H. 


。 Q- 统 计量 (Q@-statistic) 


(8.38) 


ad 一 bc 
Qij = ad + be (8.39) 
Qi; 与 相关 系数 pi; 的 符号 相同 , A Qul > loil: 
e -统计 量 (k-statistic) 
— P2 
8.40 
* T= pp tae 


其 中 , p 是 两 个 分 类 器 取得 一 致 的 概率 ; pa 是 两 个 分 类 器 偶然 达成 一 致 
的 概率 , 它们 可 由 数据 集 DD 估算 : 


a+d 
D1 = 3 (8.41) 
m. 


(a+ b)(a+c)+(c+d)(b+d) 
m2 l 


p = (8.42) 


车 分 类 器 hi 与 hj 在 D 上 完全 一 致 , 则 < = 1; 阁 它 们 仅 是 偶然 达成 一 致 ， 
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Wa =0. < 通常 为 非 负 值 , ME hi 与 hj 达成 一 致 的 概率 甚至 低 于 倘 然 
性 的 情况 下 取 负 值 . 


以 上 介绍 的 都 是 “成 对 型 ”(pairwise) 多 样 性 度量 , 它们 可 以 容易 地 通过 2 
维 图 绘制 出 来 . 例如 和 看 名 的 “«- 误 大 图 ”, 不 是 将 每 一 对 分 关 器 作为 图 上 的 一 
个 点 , 横 坐 标 是 这 对 分 类 器 的 & E, 维 坐 标 是 它们 的 平均 误差 , 图 8.10 给 出 了 
一 个 例子 . 显然 , 数据 点 云 的 位 置 越 高 , 则 个 体 分 类 器 准确 性 越 低 ; 点 云 的 位 置 
REA, 则 个 体 学 习 器 的 多 样 性 越 小 . 


FRE 


P 


r. 
(a) AdaBoost 集成 (b) Bagging 集成 


8.10 在 UCI 数据 集 tic-tac-toe 上 的 -误差 图 . 每 个 集成 仿 50 C4.5 决策 树 


8.5.3 多 样 性 增强 

在 集成 学 习 中 需 有 效 地 生成 多 样 性 大 的 个 体 学 习 器 . 与 简单 地 直接 用 初始 
数据 训练 出 个 体 学 习 器 相 比 , 如 何 增强 多 样 性 呢 ? 一 般 思 路 是 在 学 习 过 程 中 引 
入 随机 性 , 贡 见 做 法 主要 是 对 数据 梓 本 、 输 入 属性 、 和 输出 表示 、 算 法 参数 进行 

e 数据 样本 扰动 

给 定 初始 数据 集 , 可 从 中 产生 出 不 同 的 数据 子 集 ,再 利用 不 同 的 数据 子 集 
训练 出 不 同 的 个 体 学 习 器 ， 数据 样本 挑动 通常 是 基于 采样 法 , 例如 在 Bagging 
中 使 用 目 助 采样 , 在 AdaBoost 中 使 用 序列 采样 . 此 类 做 法 简单 高 效 , 使 用 最 
三. 对 很 多 和 帝 见 的 基 学 习 器 , 例如 决策 树 、 神 经 网 络 等 , 训练 样本 稍 加 变化 议会 
守 臻 学习 占有 显 普 变动 , 数据 样本 扰动 法 对 人 这样 的 “不 稳定 基 学 习 器 ”很 有 效 ; 
然而 , 有 一 些 基 学 习 器 对 数据 样本 的 扰动 不 敏感 , 例如 线性 学 习 右 、 文 持 同 量 
BL. ARR LAT. kA SS ES, 这 样 的 基 学 习 器 称 为 稳定 基 学 习 器 (stable 
base learner), 对 此 类 基 学 习 占 进行 集成 往往 需 使 用 输入 属性 扰动 等 其 他 机 制 | 


8.5 多样 性 


子 空间 一 般 指 从 初始 的 
高 维 属 性 空间 投影 产生 的 
低 维 属性 空间 ,描述 低 维 
空间 的 属性 是 通过 初始 属 
性 投影 变换 而 得 ,未 必 是 
初始 属性 . 参见 第 10 Ë. 


d! 小 于 初始 属性 数 d. 


Fi 相合 直人 个 随机 选取 
a) bE, D 仅 保 留 五 中 
的 属性 . 


ECOC AIL 3.5 7. 
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。 输入 属性 扰动 


训练 样本 通常 由 一 组 属性 描述 , 不 同 的 “ 子 空间 ”(subspace, 即 属 性 子 
集 ) 提 供 了 观察 数据 的 不 同 视角 . 显然 , 从 不 同 子 空间 训练 出 的 个 体 学 习 器 必然 
有 所 不 同 . 著名 的 随机 子 空间 (random subspace) 算 法 [Ho, 1998] 就 依赖 于 输入 
属性 扰动 , 该 算法 从 初始 属性 集中 抽取 出 者 干 个 属性 子 集 , 再 基于 每 个 属性 子 
集训 练 一 个 基 学 习 器 , 算法 描述 如 图 8.11 所 示 . 对 包含 大 量 元 余 属 性 的 数据 ， 
在 子 空间 中 训练 个 体 学 习 器 不 仅 能 产生 多 样 性 大 的 个 体 , 还 会 因 属 性 数 的 减少 
而 大 幅 节 省 时 间 开 销 , 同时 , 由 于 元 余 属 性 多 , 减少 一 些 属性 后 训练 出 的 个 体 学 
习 器 也 不 至 于 太 差 . 若 数据 只 包含 少量 属性 , 或 者 元 余 属 性 很 少 , 则 不 宜 使 用 输 
入 属性 扰动 法 . 


输入 : 训练 集 D = yi), (@2, 82) ,Tm, Ym) $3 
基 学 习 算 法 
FRE DS] a BL = 
子 空间 属性 数 d". 

过 程 : 

1: for t = 1,2,...,T do 

2: i= RS(D, d‘) 

3: D, = Map;,(D) 

A: he = £(D;) 

5: end for 


输出 : H(z) = arg max Xe I (h: (Map, (2)) = y) 


8.11 随机 子 空 间 算 法 


e 笑 出 表示 扰动 

此 类 做 法 的 基本 思路 是 对 输出 表示 进行 操纵 以 增强 多 样 性 . 可 对 训练 样本 
的 类 标记 稍 作 变动 , 如 “翻转 法 ”(Flipping Output) [Breiman, 2000] 随机 改变 
一 些 训练 样本 的 标记 ; 也 可 对 输出 表示 进行 转化 , 如 “输出 调制 法 ”(Output 
Smearing) [Breiman, 2000] 将 分 类 输出 转化 为 回归 输出 后 构建 个 体 竺 习 器 ; 
还 可 将 原 任 务 拆 解 为 多 个 可 同时 求解 的 子 任 务 , 如 ECOC 法 [Dietterich and 
Bakiri, 1995] 利用 纠 错 输 出 码 将 多 分 类 任务 拆 解 为 一 系列 二 分 类 任务 来 训练 基 
oF OJ ae. 


。 算法 参数 扰动 


基 学 习 算 法 一 般 都 有 参数 需 进行 设置 , 例如 神经 网 络 的 隐 层 神经 元 数 、 初 
始 连接 权 值 等 , 通过 随机 设置 不 同 的 参数 , 往往 可 产生 差别 较 大 的 个 体 学 习 疮 . 
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例如 “ 负 相 关 法 ”(Negative Correlation) [Liu and Yao, 1999] 显 式 地 通过 正则 
化 项 来 强制 个 体 神 经 网 络 使 用 不 同 的 参数 . 对 参数 较 少 的 算法 , 可 通过 将 其 学 
习 过 程 中 茶 些 环节 用 其 他 类 似 方式 代 蔡 , 从 而 达到 扰动 的 目的 , 例如 可 将 决策 
树 使 用 的 属性 选择 机 制 蔡 换 成 其 他 的 属性 选择 机 制 . 值得 指出 的 是 , 使 用 单一 
尝 习 器 时 通 稼 需 使 用 交叉 验证 等 方法 来 硝 定 参数 值 , 这 事实 上 已 使 用 了 不 同 参 
数 训 练 出 多 个 和 学习 髓 ,只 不 过 最 终 仅 选择 其 中 一 个 学 习 髓 进行 使 用 , 而 集成 学 
习 则 相当 于 把 这 些 学 习 器 都 利用 起 来 ; 由 此 也 可 看 出 , 集成 学 习 技术 的 实际 计 
算 开 销 并 不 比 使 用 单一 学 习 器 大 很 多 . 


不 同 的 多 样 性 增强 机 制 可 同时 使 用 , 例如 8.3.2 节 介 绍 的 随机 森林 中 同 
时 使 用 了 数据 样本 扰动 和 输入 属性 扰动 , 有 些 方法 甚至 同时 使 用 了 更 多 机 制 
(Zhou, 2012). 


8.6 阅读 材料 


集成 学 习 方 面 的 主要 推荐 读物 是 [Zhou, 2012], 本 章 提 及 的 所 有 内 容 在 
该 书 中 都 有 更 深入 详细 的 介绍 . [Kuncheva, 2004; Rokach, 2010b] 可 供 参 考 . 

[Schapire and Freund, 2012] 则 是 专门 关于 Boosting 的 著作 . 
Boosting Wi F [Schapire, 1990] 对 [Kearns and Valiant, 1989] 提出 的 “ 弱 
学 习 是 军 等 价 于 强 学 习 ” 这 个 重要 理论 问题 的 构造 性 证 明 . 最 初 的 Boosting 
算法 仅 有 理论 意义 , 经 数 年 努力 后 [Freund and Schapire, 1997] 提出 AdaBoost, 
并 因此 获得 理论 计算 机 科学 方面 的 重要 奖项 一 哥 德 尔 奖 . 不 同 集成 学 习 方 
法 的 工作 机 理 和 理论 性 质 往往 有 显 闭 不 同 , 例如 从 但 兰 -方差 分 解 的 角度 看 ， 
Boosting 主要 关注 降低 偏差 , 而 Bagging 主要 关注 降低 方差 . MultiBoosting 
[Webb, 2000] 等 方法 符 试 将 二 者 的 优点 加 以 结合 . 天 于 Boosting 和 Bagging 已 

有 很 多 理论 研究 结果 , 可 参阅 (Zhou, 2012] 第 2~3 章 . 

8.2 和 给 出 的 AdaBoost 推导 源 于 “统计 视角 ”(statistical view) [Fried- 
man et al.，2000]， 此 派 理 论 认 为 AdaBoost 实质 上 是 基于 加 性 模型 (additive 
model) 以 类 似 和 牛顿 迁 代 法 来 优化 指数 损失 函数 . 受 此 局 发 , 通过 将 夺 代 优化 过 
程 替 换 为 其 他 优化 方法 , 产生 了 GradientBoosting [Friedman, 2001], LPBoost 
[Demiriz et al., 2008] 等 变 体 算 法 . 然而 , 这 派 理 论 产 生 的 推论 与 AdaBoost 实际 
Poe aie ears 行为 有 相当 大 的 差别 [Mease and Wyner, 2008], 尤其 是 它 不 能 解释 AdaBoost 
练 误差 达到 零 之 后 继续 训 “为 什么 疫 有 过 拟 合 这 个 重要 现象 , 因此 不 少 人 认为 , 统计 视角 本 身 虽 很 有 意义 ， 
Se ee i 但 其 阐释 的 是 一 个 与 AdaBoost 相似 的 学 习 过 程 而 并 非 AdaBoost AB. “ 闻 
聚 终 仍 会 出 现 . ba FEV” (margin theory) [Schapire et al., 1998] 能 直观 地 解释 这 个 重要 现象 ， 


8.6 阅读 材料 


对 并 行 化 集 戌 的 修剪 亦 
称 “ 选 择 性 集 威 ” (selec- 
tive ensemble)， 但 现在 一 
修剪 的 同 义 语 , 亦 称 “ 集 
成 选择 ” (ensemble selec- 


tion). 
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但 过 去 15 年 中 一 直 存 有 和 争论, 直到 最 近 的 研究 结果 使 它 最 终 得 以 确立 , 并 对 新 
型 学 习 方 法 的 设计 给 出 了 局 示 ; 相关 内 容 可 参阅 [Zhou, 2014]. 

本 章 仅 介绍 了 最 基本 的 几 种 结合 方法 , 常见 的 还 有 基于 D-S 证 据 理 论 的 方 
和 法、 动态 分 类 器 选择 、 混 合 专家 (mixture of experts) 等 , 本 章 仅 介绍 了 成 对 型 
和 多样 性 度量 . [Kuncheva and Whitaker, 2003; Tang et al., 2006] 显示 出 , HLA 
DIFERE FTE Se AB. 如 何 理解 和 多样 性 , BUA ERRE PY SEF Id 
题 . 关于 结合 方法 和 多 样 性 方面 的 内 容 , 可 参阅 [Zhou, 2012] 第 4~5 Ee. 

在 集成 产生 之 后 再 试图 通过 去 除 一 些 个 体 学 习 器 来 获得 较 小 的 集成 , 称 
H RMI BY (ensemble pruning). 这 有 助 于 减 小 模型 的 存储 开销 和 预测 时 间 开 
H. 早期 研究 主要 针对 序列 化 集成 进行 , 减 小 集成 规模 后 各 导致 泛 化 性 能 下 降 
[Rokach, 2010a]; [Zhou et al., 2002] 揭示 出 对 并 行 化 集成 进行 修 盘 能 在 减 小 规 
模 的 同时 提升 泛 化 性 能 , 并 众生 了 基于 优化 的 集成 修 况 技术 . 这 方面 的 内 容 可 
参阅 [Zhou, 2012] 第 6 章 . 

关于 聚 类 、 半 监督 和 学习、 代价 敏感 学 习 等 任务 中 集成 学 习 的 内 容 , 可 参阅 
[Zhou, 2012] 第 7~8 章 . 事实 上 , 集成 学 习 已 被 三 泛 用 于 几乎 所 有 的 学 习 任 务 . 
著名 数据 挖 据 竞赛 KDDCup 历年 的 冠军 几乎 都 使 用 了 集成 学 习 . 

由 于 集成 包含 多 个 学 习 器 , 即便 个 体 学 习 器 有 较 好 的 可 解释 性 , 集成 仍 是 
黑箱 模型 . 已 有 一 些 工 作 试 图 改善 集成 的 可 解释 性 , 例如 将 集成 转化 为 单 模 
型 、 从 集成 中 抽取 符号 规则 等 , 这 方面 的 研究 衍生 出 了 能 产生 性 能 超越 集成 
的 单 学 习 器 的 “二 次 学 习 ”(twice-learning) 技 术 , 例如 NeC4.5 算法 [Zhou and 
Jiang, 2004]. 可 视 化 技术 也 对 改善 可 解释 性 有 一 定 帮 助 . 可 参阅 [Zhou, 2012] 
第 8 章 . 
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西瓜 数据 集 3.0a IL p.89 
表 4.5. 


习题 


8.1 


8.2 


8.3 


8.4 


8.9 


8.6 


8.7 


8.8 


8.9* 


8.10* 


假设 抛 便 币 正面 天 上 的 概率 为 p, 反面 天 上 的 概率 为 1 一 D. & H(n) 
代表 抛 对 次 便 币 所 得 正面 卫 上 的 次 数 , 则 最 多 大族 正 面 天 上 的 概率 为 


P(H(n) <k) => (i)e a- p)"™ . (8.43) 
+=0 


Xf ô > 0, k = (p — ô)n, 有 Hoeffding 不 等 式 
P(H (n) < (p—4d)n) < e 2 nm | (8.44) 


试 推导 出 式 (8.3). 


对 于 0/1 损失 函数 来 说 , 指数 损失 函数 并 非 仅 有 的 一 致 替代 函数 . 考 
虑 式 (8.5), 试 证 明 : 任意 损失 函数 C(— f(x) (ax)), 若 对 于 A(x) 在 区 
间 [一 eo,6] (6 > 0) 上 单调 递减 , 则 2& 是 0/1 损失 函数 的 一 臻 替代 函数 . 


从 网 上 下 载 或 自己 编程 实现 AdaBoost, LAA BSR ie a Ay SES SS BB, 
在 西瓜 数据 集 3.0a 上 训练 一 个 AdaBoost 集成 , 并 与 图 8.4 进行 比较 . 


GradientBoosting [Friedman, 2001] 是 一 种 常用 的 Boosting 算法 , 试 
析 其 与 AdaBoost 的 异同 . 


试 编程 实现 Bagging, LARRY PE NEF Sa, 在 西瓜 数据 集 3.0a 上 
训练 一 个 Bagging 集成 , 并 与 图 8.6 进行 比较 . 


试 析 Bagging 通 音 为何 难以 提升 朴素 贝 叶 斯 分 类 器 的 性 能 
试 析 随 机 森林 为 何 比 决策 树 Bagging 集成 的 训练 速度 更 快 . 


MultiBoosting 算法 [Webb, 2000] 将 AdaBoost 作为 Bagging 的 基 学 
习 器 ,Iterative Bagging 算法 [Breiman, 2001b] 则 是 将 Bagging 作为 
AdaBoost 的 基 学 习 器 . 试 比较 二 者 的 优 缺 点 . 


试 设 计 一 种 可 视 的 多 样 性 度量 , 对 习题 8.3 和 习题 8.5 中 得 到 的 集成 
进行 评估 , 并 与 k&- 误 差 图 比较 . 


试 设计 一 种 能 提升 天 近 邻 分 关 复 性 能 的 集成 尝 习 算法 . 
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小 故事 : 老 当 益 壮 的 李 奥 。 布 瑞 曼 

Æ K 。 布 瑞 曼 (Leo Breiman，1928-2005) 是 二 十 世纪 
伟大 的 统计 学 家 . 他 在 二 十 世纪 末 公 开 宣 称 , 统计 学 界 把 
统计 搞 成 了 抽象 数学 , ee TR, 统计 学 本 该 是 关于 预 
测 、 解 释 和 处 理 数 据 的 学 问 . 他 自称 与 机 器 学 习 走 得 更 近 ， 
因为 这 一 行 是 在 处 理 有 挑战 的 数据 问题 . 事实 上 , 布 瑞 曼 是 
一 位 卓越 的 机 器 学 习 学 家 , 他 不 仅 是 CART 决策 树 的 作者 , 还 对 集成 学 习 有 三 
大 贡献 :; Bagging、 随 机 和 森林 以 及 关于 Boosting 的 理论 探讨 . 有趣 的 是 , 这 些 者 
是 在 他 1993 年 从 加 州 大 学 伯克利 分 校 统 计 系 退休 后 完成 的 . 

布 瑞 曼 早年 在 加 州 理工 学 院 获 物理 学 士 学 位 , 然后 打算 到 哥伦比亚 大 学 念 
哲学 , 但 哲学 系 主 任 告诉 他 , 自己 最 优秀 的 两 个 博士 生 没 找到 工作 , FEH mE 
改 学 数学 , 先后 在 哥伦比亚 大 学 和 加 州 大 学 伯克利 分 校 获得 数学 硕士 、 博 士 学 
位 . 他 先是 研究 概率 论 , 但 在 加 州 大 学 洛杉矶 分 校 (UCLA) 做 了 7 年 教授 后 他 大 
te TRB, 于 是 主动 辞职 . 为 了 疝 概率 论 告别 , 辞职 后 他 把 自己 关 在 家 里 半年 
写 了 本 关于 概率 论 的 书 , 然后 他 到 工业 界 做 了 13 年 咨询 , 再 回 到 加 州 大 学 伯 克 
利 分 校 统计 系 做 教授 . 布 瑞 曼 的 经 历 极为 丰富 , 他 曾 在 UCLA 学 术 假 期 间 主 动 
到 联合 国教 科 文 组 织 工 作 , 被 安排 到 非洲 利比里亚 统计 失学 儿童 数 . 他 是 一 位 
业余 雕塑 家 , 甚至 还 与 人 合伙 在 看 西 哥 开 过 制 冰 厂 . 他 自 认 为 一 生 最 重要 的 研 
究 成 果 一 一 随机 和 森林, 是 70 多 岁 时 做 出 来 的 . 


常见 的 无 监督 学 习 任 
务 还 有 密度 估计 (densi- 
ty estimation)、 措 第 检测 
(anomaly detection) 等 . 


对 聚 类 算法 而 言 , 样本 
aa “HK”, 


聚 类 任务 中 也 可 使 用 有 
标记 训练 样本 , 如 9.4.2 与 
13.6 节 , 但 样本 的 类 标记 
与 聚 类 产生 的 六 有 所 不 同 . 


9.1 BAECS 


在 “无 监督 学 习 ”(unsupervised learning) 中 , 训练 样本 的 标记 信息 是 未 
知 的 , 目标 是 通过 对 无 标记 训练 样本 的 学 习 来 揭示 数据 的 内 在 性 质 及 规律 , 为 
进一步 的 数据 分 析 提 供 基 础 . 此 类 学 习 任 务 中 研究 最 多 、 应 用 最 广 的 是 “ 聚 
38” (clustering). 

RRR R CIE SRP AREAS al) a} Ag ep PS A EE AS AAC PSR, 每 个 子 集 
BRA“ “i” (cluster). 通过 这 样 的 划分 , 每 个 簇 可 能 对 应 于 一 些 潜 在 的 概 
(AA), 如 “ 浅 色 瓜 ”“ 深 色 瓜 ”, “AIK “CAI”, 甚至 “本 地 瓜 ” 
“外 地 瓜 ” 等 ; 需 说 明 的 是 , 这 些 概念 对 诊 类 算法 而 言 事 先是 未 知 的 , 聚 类 过 程 
仅 能 自动 形成 能 结构 , 艇 所 对 应 的 概念 语义 需 由 使 用 者 来 把 握 和 命名 . 

形式 化 地 说 , 假定 样本 集 D = {zlza,.. .ozm} BA m 个 无 标记 样本 ， 
每 个 样本 zi = (£il; Liz; -j Lin) 是 一 个 n EREE, 则 聚 类 算法 将 样本 
R DD 划分 为 k 个 不 相交 的 簇 {C1 | 1 = 1,2,...,k}, HP Cr rali = 2 
AD = UL, C. 相应 地 , 我 们 用 A; © {1,2,...,k} 表示 样本 zx; H “PEER 
Ww” (cluster label), 即 zj € Cya, 于 和 是， 聚 类 的 结果 可 用 包含 m PIC RAY RE 
记 同 量 A = (A1; A2;...;Am) 表示 . 

聚 类 既 能 作为 一 个 单独 过 程 , 用 于 找寻 数据 内 在 的 分 布 结构 , 也 可 作为 分 
类 等 其 他 学 习 任 务 的 前 驱 过 程 . 例如 , 在 一 些 商业 应 用 中 需 对 新 用 户 的 类 型 进 
行 判 别 , 但 定义 “用 户头 型 ”对 商家 来 说 却 可 能 不 太 容 易 , 此 时 往往 可 先 对 用 
户 数据 进行 聚 类 , 根据 聚 类 结果 将 每 个 艇 定义 为 一 个 类 , 然后 再 基于 这 些 类 训 
练 分 类 模型 , 用 于 判别 新 用 户 的 类 型 . 

基于 不 同 的 学 习 策 略 ， 人 们 设计 出 多 种 类 型 的 聚 类 算法 . 本 章 后 半 部 分 将 
对 不 同类 型 的 代表 性 算法 进行 介绍 , 但 在 此 之 前 , 我 们 先 讨 论 聚 类 算法 涉及 的 
两 个 基本 问题 一 -性 能 度量 和 距离 计算 . 


9.2 性 能 度量 


聚 类 性 能 度量 亦 称 聚 类 “有 效 性 指标 ”(validity index). 与 监督 学 习 中 的 
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gg EE 性 能 度量 作用 相似 , 对 聚 类 结果 , 我 们 需 通过 某 种 性 能 度量 来 评估 其 好 坏 ; 另 一 
方面 , 车 明确 了 最 终 将 要 使 用 的 性 能 度量 , 则 可 直接 将 其 作为 谷类 过 程 的 优化 
HER, 从 而 更 好 地 得 到 符合 要 求 的 涌 类 结果 . 

聚 类 是 将 样本 集 DD 划分 为 才干 互 不 相交 的 子 集 , BURR AER. ABA, 什么 
样 的 了 桶 类 结果 比较 好 呢 ? 直观 上 看 , 我 们 希望 “ 物 以 类 聚 ”, Ble) PEN FE AS 
尽 可 能 彼此 相似 , 不 同 艇 的 样本 尽 可 能 不 同 . PR 2, RRA RIN “RRA FAI 

度 ”(intra-cluster similarity) A. “#eIB)FAARE” (inter-cluster similarity) 低 . 
SERVE RE RE MARMARA. 一 类 是 将 肾 类 结果 与 某 个 “参考 模 
例如 将 领域 专家 给 出 的 ”型 ”(reference model) 进 行 比 较 , 称 为 “外 部 指标 ”(external index); 另 一 


划分 结果 作为 参考 模型 
类 是 直接 考察 聚 类 结果 而 不 利用 任何 参考 模型 , 称 为 “内 部 指标 ”(internal 
index). 

| 对 数据 集 D = {a1,%2,...,em}, EW RABS HRA C = {Ch, 
MH kh As. Co,...,Cy}, 参考 模型 给 出 的 簇 划分 为 C* = {CF,CF,..., CF}. 相应 地 , 令 入 与 

入 * 分 别 表示 与 C 和 C* 对 应 的 簇 标记 同 量 . 我 们 将 样本 两 两 配对 考虑 , 定义 
a =|SS|, SS 一 { (zi, Tj) | Ai 一 Ags Ai Aji < 7)}, (9.1) 
b=|SD|, SD = {(ai,2;) | Mi = N,N FAG < DI, (9.2) 
c=|DS|, DS = {(wi,x;) | i Æ Aj, Af = NM,i< DI, (9.3) 
d=|DD|, DD = {(ai,x;) | Ai # Aj, A] FAG < Dh, (9.4) 


其 中 集合 SS 包含 了 在 C PRB FARA CE C PRS FHI RY E 
本 对 , 集合 SD 包含 了 在 C PRB TABI BBE C* 中 隶属 于 不 同 艇 的 样本 
Fl, Soe 由 于 每 个 样本 对 (x, æ) (二 疙 仅 能 出 现在 一 个 集合 中 , 因此 有 
a+b+e+d=m(m—1)/2 BMAX. 

基于 式 (9.1)~(9.4) 可 导出 下 面 这 些 常 用 的 聚 类 性 能 度量 外 部 指标 : 


e Jaccard 系数 (Jaccard Coefficient, 简称 JC) 


a | 
ee rp eo) 


e FM 指数 (Fowlkes and Mallows Index, {JR FMI) 


a a 
a+b a+c ` 


FMI = (9.6) 
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e Rand 指数 (Rand Index, 简称 RI) 


— m(m — 1) (9-7) 
显然 , 上 述 性 能 上 度量 的 结 采 值 均 在 [0,1] KI, 值 越 大 越 好 . 
考虑 从 类 结果 的 艇 划分 C = {C1, C2,...,Cxk}, 定义 

2 
avg(C) = ICC- D 2 dist (2;, x; ) ; (9.8) 
diam(C) = Maxj<j<j<|C| dist (i, Lj) ; (9.9) 
dimin | Ci Ci) = Ming, EC;,2;EC; dist (ax;, £j) 3 (9.10) 
dcen(Ci, Cj) = dist (Hi, Hj) ， (9.11) 


eh eh 其 中 , dist(-,-) 用 于 计算 两 个 样本 之 间 的 距离 ; 4 代表 秘 C 的 中 心 点 = 
ral > 1<i<lcl Ti 显然, ave(C) ETER C 内 样本 间 的 平均 距离 ,diam(C) 对 
DIR C 内 样本 间 的 最 远 距 离 , dmin (Ci, Cj) SIN FIR Ci SHR Ci 最 近 样 本 间 
的 距离 , dcen(Ci, Cj) 对 应 于 簇 Ci SHR Cj 中 心 点 间 的 距离 . 
基于 式 (9.8)~(9.11) 可 导出 下 面 这 些 常用 的 聚 类 性 能 度量 内 部 指标 : 


e DB 指数 (Davies-Bouldin Index, 简称 DBI) 


k 
1 avg(Ci) + avg(C;) 
DBI = — max | — 9.12 
k a, jfi ( deen (Hi, Hj) ( ) 


{= 


e Dunn 指数 (Dunn Index, 简称 DI) 


n P dmin (C; Ci) | 
DI = | 一 一 一 一 一 一 , 1 
cick {min (a Bi) \ (9 3) 


显然 , DBI 的 值 越 小 越 好 , 而 DI 则 相反 , 值 越 大 越 好 . 


9.3 距离 计算 
XY pa dist(-,-), 在 它 是 一 个 “距离 度量 ”(distance measure), Wri 
JEH tE: dist(a;,2;) 2 0 ; (9.14) 


同一 性 : dist(x,,2;)=0 当 且 仅 当 a; = £i ; (9.15) 
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直 递 性 常 被 直接 称 为 
“三 角 不 等 式 ”. 


式 (9.18) 即 为 x; — x; 的 
Lp 范 数 ||mt 一 w5\||p- 


DH coo 时 则 得 到 切 比 雪 
ATER. 


亦 称 “街区 距离 ”(city 


block distance). 


连续 属性 亦 称 “数值 属 
性 ” (numerical attribute), 
“BRS” map “FZ 
属性 ” (nominal attribute). 


样本 类 别 已 知 时 天 通常 
设置 为 类 别 数 . 


对 称 性 : dist (zi, æj) = dist(x,;,x;) ; (9.16) 
HIE: dist(x;, æj) < dist (zi, ak) + dist(a,, £3) . (9.17) 


给 定 样本 zi = (zili zi2i --5 Tin) Boaz = (251; 2523. 
“闵可夫 斯 其 距离 ”(Minkowski distance) 


1 
"A = 
distmx (£i, i) = (£ p — esa? ) : 


u=] 


..32jn), Bet AY ze 


(9.18) 


Xt p > 三 1, 式 (9.18) 显 然 满足 式 (9.14)~(9.17) 的 距离 度量 基本 性 质 . 
p=2W, 闵可夫 斯 基 距 离 即 欧 氏 距离 (Euclidean distance) 


TL 


(Tiu 一 ziu| 
j 


u=1 


disted(zi; Œj) = ||a; 一 2j|2 = (9.19) 


p= 1 时 , 闵可夫 斯 基 距 离 即 曼哈顿 距离 (Manhattan distance) 


Tt 
distman( Ti; Tj) = |æ; 一 Tji||1 一 S [Tu = Tjul . (9.20) 


u=] 


FRAN) FS KS IR TERDA “E PE” (continuous attribute) 和 “离散 属 
HE” (categorical attribute), 前 者 在 定义 域 上 有 无 穷 多 个 可 能 的 取 值 , 后 者 在 定 
义 域 上 是 有 限 个 取 值 . 然而 , 在 讨论 距离 计算 时 , Jere Eke eM “FP” R 
系 更 为 重要 . 例如 定义 域 为 {1,2,3} 的 离 艇 属性 与 连续 属性 的 性 质 更 接近 一 些 ， 
能 直接 在 属性 值 上 计算 距离 : “1” 与 “2” 比 较 接 近 、 与 “3” 比 较 远 , 这 样 的 
属性 称 为 “有 序 属 性 ”(ordinal attribute); 而 定义 域 为 {飞机 , KE, 轮船 } 这 样 
的 离散 属性 则 不 能 直接 在 属性 值 上 计算 距离 , 称 为 “无 序 属性 ”(non-ordinal 
attribute). 显然 , 闵可夫 斯 基 距 离 可 用 于 有 序 属 性 . 

对 无 序 属性 可 采用 VDM (Value Difference Metric) [Stanfill and Waltz, 
1986]. 令 mwa 表示 在 属性 u LEIBA a 的 样本 数 , Muai 表示 在 第 ;个 样本 得 
中 在 属性 CREJ a 的 样本 数 , 为 样本 和 饼 数 , 则 属性 u 上 两 个 离散 值 wa 与 6 
之 间 的 VDM 距离 为 


k 


VDM, (a,b) = Š 


t=1 


p 
Thy avi Tha bi 


9.21 
Wha a ( ) 


i 


hab 


9.3 ”距离 计算 


参见 10.6 节 . 


这 个 例子 中 , 从 数学 上 
A, & ds = 3 即 可 满足 直 
递 性 ; 但 从 语义 上 看 , ds 应 
远大 于 di 与 do. 
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TÆ, 将 闵可夫 斯 基 距 离 和 VDM 结合 即 可 处 理 混合 属性 . 假定 有 mc 个 有 
序 属性 、n 一 nic 个 无 序 属 性 , 不 失 一 般 性 , 令 有 序 属 性 排列 在 无 序 属性 之 前 , 则 


MinkovDM,(a;, Œj) = es [Liu — Zul? + So VDM, (Tiu, <1) ; . 
u=1 Uu=Nnetl | 
t (9.22) 
当 样 本 空间 中 不 同属 性 的 重要 性 不 同时 , 可 使 用 “加 权 距 离 ”(weighted 
distance). 以 加 权 闵 可 夫 斯 基 距 离 为 例 : 


1 
distwmk (£i, Tj) = (wi ， |£; 一 al see Ue * (Ein 一 Tial ) P, (9.23) 


其 中 权重 wi >0 (i= 1,2,...,n) 表征 不 同属 性 的 重要 性 , 通常 D w E l. 


m CE Fk AY AL, 通常 我 们 是 基于 某 种 形式 的 距离 来 定义 “相似 度 度 
=” (similarity measure), 距离 越 大 , 相似 度 越 小 ， 然 而 , 用 于 相似 度 上 度量 的 
距离 未 必 一 定 要 满足 距离 度量 的 所 有 基本 性 质 , 尤其 是 百 递 性 (9.17). 例如 在 
某 些 任务 中 我 们 可 能 希望 有 这 样 的 相似 度 度 量 : “人 ”“ 马 ”分 别 与 “人马 ” 
相似 , 但 “人 ”与 “ 马 ” 很 不 相似 ; 要 达到 这 个 目的 , 可 以 令 “ 人 ”“ 马 ”与 
“人 马 ” 之 间 的 距离 都 比较 小 ,但 “人 ”与 “ 蕊 ”之 则 的 距离 很 大 , 如 图 9.1 所 
示 , 此 时 该 距离 不 再 满足 直 递 性 ; 这 样 的 距离 称 为 “ 非 度量 距离 ”(non-metric 
distance). 此 外 , 本 和 介绍 的 距离 计算 云 痢 是 事先 定义 好 的 , 但 在 不 少 现实 任 
务 中 , 有 必要 基于 数据 样本 来 确定 合适 的 距离 计算 式 , 这 可 通过 “距离 度量 学 
习 ”(distance metric learning) 来 实现 . 


A F 
wv a 2 Fi 
a >33 da E da ds 


da =8 As iy AL EU PE 
Ee es 
| 不 相似 mp 


图 9.1 非 度量 距离 的 一 个 例子 
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“原型 ”是 指 样 本 空间 
中 具有 代表 性 的 点 . 


p.89 的 西瓜 数据 集 3.00 
是 西瓜 数据 集 4.0 的 子 集 ， 


样本 9r21 的 类 别 是 
“好 瓜 二 和 否 ”， 其 他 样本 
的 类 别 是 “好 瓜 = HE”, 
由 于 本 节 使 用 无 标记 样本 ， 
因此 类 别 标 记 信 息 未 在 表 
中 给 出 . 


9.4 原型 聚 类 


原型 聚 类 让 称 “ 基 于 原型 的 聚 类 ”(prototype-based clustering), 此 类 算法 
假设 聚 类 结构 能 通过 一 组 原型 刻画 , 在 现实 聚 类 任务 中 极为 常用 . 通常 情形 下 ， 
算法 先 对 原型 进行 初始 化 , 然后 对 原型 进行 沈 代 更 新 求解 . 采用 不 同 的 原型 表 
示 、 不 同 的 求解 方式 , 将 产生 不 同 的 算法 . 下 面 介 绍 几 种 著名 的 原型 聚 类 算法 . 


9.4.1 天 均值 算法 


给 定 样 本 集 D = {zl 22,.… Lm}, “k HE” (k-means) IEE RRI 
得 艇 划分 C = {C1, C2,... ,Ck} 最 小 化 平方 误差 


k 
E=} 2 lle milla. (9.24) 
i=l rec; 
其 中 ui = g acc, © ERC; 的 均值 向 量 . 直观 来 看 , 3X (9.24) 在 一 定 程度 上 
刻画 了 簇 内 样本 围绕 艇 均值 向 量 的 紧密 程度 , E 值 越 小 则 簇 内 样本 相似 度 越 高 . 
最 小 化 式 (9.24) 并 不 容易 , 找到 它 的 最 优 解 需 考察 样本 集 D 所 有 可 能 的 簇 
划分 , 这 是 一 个 NP 难 问题 [Aloise et al., 2009]. 因此 ,大 均值 算法 采用 了 贪心 策 
略 , 通过 迁 代 优化 来 近似 求解 式 (9.24)， 算 法 流程 如 图 9.2 Pras, 其 中 第 1 行 对 
均值 向 量 进行 初始 化 , 在 第 4-8 行 与 第 9-16 行 依次 对 当前 簇 划 分 及 均值 向 量 迭 
代 更 新 , 若 迭 代 更 新 后 聚 类 结果 保持 不 变 , 则 在 第 18 行将 当前 簇 划 分 结果 返回 . 
下 面 以 表 9.1 的 西瓜 数据 集 4.0 为 例 来 演示 均值 算法 的 学 习 过 程 . 为 方 
TROE, 我 们 将 编号 为 i 的 样本 称 为 mi, 这 是 一 个 包含 “密度 ”与 “ 含 糖 率 ” 
两 个 属性 值 的 二 维 向 量 . 


表 9.1 西瓜 数据 集 4.0 
编号 ”密度 RWE | 编号 ”密度 合 糖 率 | 编号 ”密度 AIE 


1 0.697 0.460 21 0.748 0.232 
2 0.774 0.376 22 0.714 0.346 
3 0.634 0.264 23 0.483 0.312 
A 0.608 0.318 24 0.478 0.437 
5 0.556 0.215 25 0.525 0.369 
6 0.403 0.237 26 0.751 0.489 
T 0.481 0.149 27 0.532 0.472 
8 0.437 0.211 28 0.473 0.376 
9 0.666 0.091 29 0.725 0.445 
10 0.243 0.267 30 0.446 0.459 


9.4 原型 聚 类 


为 避免 运行 时 间 过 长 ， 
通常 设置 一 个 最 大 运行 轮 
数 或 最 小 调整 幅度 阅 值 ， 
车 达到 最 大 轮 数 或 调整 幅 
度 小 于 阅 值 , 则 停止 运行 . 
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WA: EER D = {2}, 22,...,%m}; 

过 程 : 

1: A D PREPARE k SEALE A Poe eel et {jp1, oe,.--, Ue} 

2: repeat 

3: SO, =o (1 <i<k) 

A for 7 = 1,2,...,m do 

5 计算 样本 r; 与 各 均值 向 量 Ai (1 <i < k) 的 距离 : dji = |æ; 一 eilla; 

6: 根据 距离 最 近 的 均值 巾 量 确定 zi 的 艇 标记 : Aj = argminicfl2 1 dji; 
7 将 样本 zx; 划 入 相应 的 簇 : Ca, = Cr, UIE}; 

8 end for 

9: for 1 = 1,2,..., k do 
10: 计算 新 均值 向 量 : ji = req Daco: T: 
11: if pe Æ Hi then 
12: 将 当前 均值 向 量 jp; 更 新 为 yt 
13: else 
14: 保持 当前 均值 向 量 不 变 
15: end if 


16: end for 
17: until 4Ay Efe SIR ae 
输出 : R C = {C1,Co,...,C} 
9.2 大 均值 算法 
BERKER k = 3, 算法 开始 时 随机 选取 三 个 样本 arg, £12, za4 作为 初始 
HE mÆ, BH 
14, = (0.403; 0.237), peo = (0.343; 0.099), 3 = (0.478; 0.437) . 
考察 样本 zl = (0.697; 0.460), 它 与 当前 均值 向 量 p, pa, pes 的 距离 分 别 为 
0.369, 0.506，0.220, 因此 xı FFARR ATE Cs 中 . 类 似 的 , 对 数据 集中 的 所 有 样本 
考察 一 授 后 , 可 得 当前 艇 划分 为 
Cı = {£3, £5, £6, L7, LE, T9, T10, X13, 14, L17, 18, Lig, T20, L23}; 
Co = {%11,%12, Fie}; 


C3 = {£1, £2, La, 215, T21, T22, T24, L25, L26, L27, L28, T29, T30 $- 
于 是 , 可 从 Cis Cor Cs 分 别 求 出 新 的 均值 向 量 
4i = (0.493; 0.207), æ% = (0.394; 0.066), yes = (0.602; 0.396) . 


更 新 当前 均值 向 量 后 , 不 断 重 复 上 述 过 程 , 如 图 9.3 Bras, Fs eR EN S 
FRAG ER VU FOIA TAA IA], 于 是 算法 停止 , Fe Bl Be AS AY ERI SY. 
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小 1 0.2 0.3 O4 03 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 
a 
(a) 第 一 轮 先 代 后 


i. 1 0.2 0.3 4 is aa 0.7 8 9 0. 1 0.2 0.3 0.4 0.5 o 0.7 O.8 0.9 
密度 密度 
(c) PENG (d) Pw VE 


图 9.3 西瓜 数据 集 4.0 上 天 均值 算法 (下 = 3) 在 各 轮 选 代 后 的 结果 . 样本 点 与 均值 向 
量 分 别 用 “e@” 与 “+” 表示 , CER BR RRS. 


9.4.2 学 习 向 量 量 化 
与 上 均值 算法 类 似 ， “FYRRE” (Learning Vector Quantization, fi 
PR LVQ) 也 是 试图 找到 一 组 原型 癌 量 来 刻画 聚 类 结构 , 但 与 一 般 聚 类 算法 不 同 
sn ee” a in HOE, LVQ 假设 数据 样本 带 有 类 别 标记 , 学 习 过 程 利 用 样本 的 这 些 监督 信息 来 
子 类 对 应 一 个 聚 类 知 ， HRR. 
给 定 样 本 集 DD = {(271, y1), (£2, Y2). -< (Em: Ym) h, 每 个 样本 xj BH nT 
属性 描述 的 特征 向 量 (£j1; T42- Ejn) Yj CV 是 样本 r; 的 类 别 标记 . LVQ 的 
目标 是 学 得 一 组 n EREE {pi, P2,- Pah FARN HERRE ARRIR, 
PEERI ti € 了. 
LVQ 算法 描述 如 图 9.4 所 示 . 算法 第 1 行 先 对 原型 向 量 进行 初始 化 , 例如 
对 第 g 个 簇 可 从 类 别 标记 为 如 的 样本 中 随机 选取 一 个 作为 原型 问 量 . 算法 第 


9.4 原型 聚 类 


Ty 与 Pi= 的 类 别 相 同 . 


Tj 与 Pi- 的 类 别 不 同 ， 


如 达到 最 大 迁 代 轮 数 . 


第 5 行 是 竟 争 学 习 的 
“ 胜 者 为 王 ” 策 略 . SOM 
是 基于 无 标记 样本 的 聚 类 
算法 , 而 LVQ 可 看 作 SOM 
基于 监督 信息 的 扩展 . 关 
于 竟 争 学 习 与 SOM, 参见 
5.5.2 和 5.5.3 7, 
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HA: 样本 集 D = — {(x1, yı), (@2, Y2), i n E E. m) e 
原型 向 量 个 数 g, 各 原型 向 量 巴 预 设 的 类 别 标记 {t1, t2,..., to}; 
学 习 率 7 (0, 1). 


过 程 : 

1: 初始 化 一 组 原型 问 量 {pi, po,..-, Pa} 

2: repeat 

3 从 样本 集 D 随机 选取 样本 Lp 

4 计算 样本 x; 与 pi (1 <i <q) 的 距离 : d ji 一 = llz; 一 Pi||2; 

5: RBS zj 距离 最 近 的 原型 向 量 pi, i* = arg minyer12,...,g} fji 
6: if yj = t; then 

T: P = Pi* +n (j — Pi”) 

8 


else 
9: p’ = Pi* — 1° (x; — pix) 
10: end if 


11: ENHE pe 更 新 为 p 
12: until 满足 停止 条 件 
输出 : Jet AY Ja] St {pi1,p2,...,pPo} 


9.4 学 习 向 量 量 化 算法 


2~12 行 对 原型 癌 量 进行 迭代 优化 . TERE FOIA, 算法 随机 选取 一 个 有 标记 
训练 样本 , 找 出 与 其 距离 最 近 的 原型 向 量 , 并 根据 两 者 的 类 别 标记 是 否 一 致 来 
对 原型 向 量 进 行 相应 的 更 新 . 在 第 12 行 中 , 若 算法 的 停止 条 件 已 满足 (例如 已 
IA Bl) FRAT HE RL, 或 原型 癌 量 更 新 很 小 甚至 不 再 更 新 ), 则 将 当前 原型 向 量 作 
为 最 终结 果 返 回 . 

显然 , LVQ 的 关键 是 第 6-10 行 , 即 如 何 更 新 原型 癌 量 . 直观 上 看 , 对 样本 
Tj, 若 最 近 的 原型 同 量 pe 与 zj 的 类 别 标记 相同 , WS pp 向 æ; 的 方 同 靠拢 ， 
如 第 7 行 所 示 , 此 时 新 原型 向 量 为 


p = pp +n: (x; — pis) , (9.25) 
p 与 a, 之 间 的 距离 为 
Ip — æ;ll2 = |p + 7 : (æ; — pix) — wj||2 
= (1 — n): |p — zjllz . (9.26) 


SFE n E (0,1), WRH HE py 在 更 新 为 p! 之 后 将 更 接近 £j. 

类 似 的 , Æ pe Sa, 的 类 别 标 记 不 同 , 则 更 新 后 的 原型 向 量 与 zj 之 间 的 
距离 将 增 大 为 (1 十 才 lp — zj||lz, 从 而 更 远离 £3. 

在 学 得 一 组 原型 癌 量 {pi,p2,...,Pg} Ja, 即 可 实现 对 样本 空间 AY ER 
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Sit R 中 样本 全 用 原 
型 向 量 ps 表示 ， 则 可 实 
现 数 据 的 “有 损 压 编 ” 
(lossy compression), iž 称 
为 “e E eth” (vector 
quantization); LVQ 由 此 而 
得 名 . 


Ep dr 2 “AJR 72” 
4K 2) 3 SHR, “SFR EG” 
找到 2 个 其， 


记 为 x ~ N (u, ©). 


D: FEZ HEE, 
El: E 的 行列 式 ,; 
E-l. 五 的 并 上 矩阵， 
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Sy. 对 任意 样本 x, 它 将 被 划 入 与 其 距离 最 近 的 原型 向 量 所 代表 的 簇 中 ; 换 言 
之 , 每 个 原型 向 量 Pi 定义 了 与 之 相关 的 一 个 区 域 Ri, 该 区 域 中 每 个 样本 与 p; 
的 距离 不 大 于 它 与 其 他 原型 同 量 py (i Æi) KER, Bp 


Ri = {x € X | ||x— pill2 <|z — py||2, t A i}. (9.27) 


由 此 形成 了 对 样本 空间 RR {R Ro,..., Rg}, 该 划分 通常 称 为 
“Woronoi 训 分 ”(Voronoi tessellation). 

下 面 我 们 以 表 9.1 的 西瓜 数据 集 4.0 为 例 来 演示 LVQ 的 学 习 过 程 . 令 9-21 
号 样本 的 类 别 标 记 为 ca, 其 他 样本 的 类 别 标记 为 a. 假定 g = 5, WJH 
标 是 找到 5 个 原型 同 量 pi, P2, D3, Pa, Ds, 并 假定 其 对 应 的 类 别 标 记分 别 为 
€1, Cg, C2, C1, Cl. 

算法 开始 时 , TEER RE AS ASS ill i ts FEY FA Hal) op 1 MY J AY TA SVE FB 
机 初始 化 , 假定 初始 化 为 样本 £5, £12, Vig, T23, Lag. EB -FRR P, 假定 随 
机 选取 的 样本 为 zl, 该 样本 与 当前 原型 向 量 pi, po, ps, pa, Ds 的 距离 分 别 为 
0.283, 0.506, 0.434, 0.260, 0.032. 由 于 ps 与 zl 距离 最 近 且 两 者 具有 相同 的 类 
别 标记 cl, REFIJE n= 0.1, MW LVO 更 新 ps 得 到 新 原型 向 量 


p' = ps +1: (x1 — ps) 
= (0.725; 0.445) + 0.1 - ( (0.697; 0.460) — (0.725; 0.445)) 


= (0.722; 0.447) . 
将 ps 更 新 为 p Ja, 不 断 重 复 上 述 过 程 , 不 同 轮 数 之 后 的 聚 类 结果 如 图 9.5 所 示 . 


9.4.3 高 斯 混合 聚 类 


与 上 均值 、LVQ 用 原型 品 量 来 刻画 谷类 结构 不 同 , tay SOT YEE > (Mixture-of- 
Gaussian) 聚 闫 采用 概率 模型 来 表达 聚 关 原型 . 

我 们 先 伽 单 回顾 一 下 (多 元 ) 蜗 斯 分 布 的 定义 . 对 n 维 样本 空间 区 中 的 随机 
Ft ac, Fr zw 服从 局 斯 分 布 , 其 概率 密度 图 数 为 


1 1 Ty -1 
—s(2—ps)° D(x) , 
r — E 2 3 9.28 
ple) (27)? PE ( ) 


其 中 jx 是 nn 维 均值 向 量 , Sdn xn 的 协 方差 矩阵 .由 式 (9.28) 可 看 出 , 高 斯 分 
布 完 全 由 均值 向 量 jw 和 协 方差 矩阵 D 这 两 个 参数 确定 . 为 了 明确 显示 高 斯 分 
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Thy 7 0.8 1.9 ġid 0.2 0.3 0.4 


$1 0.2 3 tht 5 0.S Chat 0.7 I.8 0. F 
密度 密度 
(a) 50 轮 迁 代 后 (b) 100 轮 迁 代 后 


an 和 .之 3 0.4 0.5 M.i 0.7 0.8 0.9 Wa 0.2 g3 Da ET D.G 0.7 0.8 0.9 
密度 FE 
(c) 200 #61440 (d) 400 #62440 


9.5 西瓜 数据 集 4.0 上 LVQ 算法 (g = 5) 在 不 同 轮 数 迭代 后 的 聚 类 结果 . cl, co RAF 
本 点 与 原型 向 量 分 别 用 “@”,“o” 与 “二 ”表示 , 红色 虚线 显示 出 聚 类 形成 的 Voronoi HH. 


布 与 相应 参数 的 依赖 关系, 将 概率 密度 函数 记 为 p(z | pe, X). 
我 们 可 定义 高 斯 混合 分 布 


pm) 也 是 概率 密度 函 k 
数 , J pm(æ)dæ = 1. pm(x) = > ci p(x | Hi, Xi) , (9.29) 
i=1 


该 分 布 共 由 天 个 混合 成 分 组 成 , 每 个 混合 成 分 对 应 一 个 高 斯 分 布 . 其 中 ji; 与 
D; 是 第 ;个 高 斯 混合 成 分 的 参数 , 而 as > 0 为 相应 的 “混合 系数 ”(mixture 
coefficient), JOf] a; = 1. 

假设 样本 的 生成 过 程 由 高 斯 混合 分 布 给 出 : 首先 , 根据 a1,a02,...,a% 定义 
的 先 验 分 布 选 择 高 斯 混合 成 分 , 其 中 ai 为 选择 第 i 个 混合 成 分 的 概率 ; 然后 , 根 
据 被 选择 的 混合 成 分 的 概率 密度 函数 进行 采样 , 从 而 生成 相应 的 样本 . 
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EURE D = {a1,%2,...,¢m} 由 上 述 过 程 生 成 , 令 随 机 变量 zj € {1, 
2,...,k} 表示 生成 样本 zj 的 高 斯 混合 成 分 , 其 取 值 未 知 . 显然 , z; 的 先 验 概率 
P(z; 三 让 对 应 于 a; (i= 1,2,..., k). 根据 贝 叶 斯 定理 , zj 的 后 验 分 布 对 应 于 
P(z; = i) - pm (aj | z; = i) 

pM (x5) 


k 
>, a: p(x; | Hi, 41) 
i=1 


pma(2zj = i | ;) = 


(9.30) 


换言之 , pmlz = i| zj) 给 出 了 样本 r; 由 第 i 个 高 斯 泥 合 成 分 生成 的 后 验 概 
K. 为 方便 手 述 , 将 其 简 记 为 yji (2 =1,2,...,k). 

当 高 斯 混合 分 布 (9.29) 已 知 时 , 高 斯 混合 聚 类 将 把 样本 集 D RAHA k PR 
C = {C1, C2,...,Ck}, 每 个 样本 a, 的 艇 标记 A; 如 下 确定 : 


Aj = arg max ji . (9.31) 
i€E{1,2,...,k} 


因此 , 从 原型 聚 类 的 角度 来 看 , 高 斯 混合 附 类 是 采用 概率 模型 (高 斯 分 布 ) 对 原型 
进行 刻画 , 艇 划分 则 由 原型 对 应 后 验 概率 确定 . 


| IBA, 对 于 式 (9.29), 模型 参数 {(ai, wi, Di) | 1 <i < kyi RREN? 显然 ， 
og BRIS EE TO 给 定 样本 集 刀 ,可 采用 极 大 似 然 估计 , 即 最 大 化 (对 数 ) 似 然 


EL(D) = ln (ü rate) ) 


j=l 


| 
WE 
iv 


Oy P(x; | Mi, =) ; (9.32) 


EM 算法 参见 7.6 节 . 常 采用 EM 算法 进行 迭代 优化 求解 . 下 面 我 们 做 一 个 简单 的 推导 . 
HBR {(Qi, wi, Ei) | 1 < i < k} 能 使 式 (9.32) 最 大 化 , 则 由 SAY = 0 有 


3 ai p(x; | Hi, Si) 


7 (Ti; — pi) =0, (9.33) 
J=1 $ ay: p(x; | pi, Dy) 
1 


由 式 (9.30) 以 及 yji = pm (zj = i | xj), 有 


9.4 原型 聚 类 


TTL 
V5 
j=l 


Hi = 1 (9.34) 


Ze Yji 
7 二 1] 

即 各 混合 成 分 的 均值 可 通过 样本 加 权 平均 来 估计 , 样本 权重 是 每 个 样本 属于 该 
成 分 的 后 验 概率 . 类 似 的 , 由 EEL) = 0 可 得 


YjilTj 一 Ai)(27 — p:i)" 
>; 一 Sa (9.35) 


TT 
-F Yji 
j=l 


对 于 混合 系数 oir 除了 要 最 大 化 LL(D), 还 需 满足 au > 0, WE a = 1. 考虑 
LL(D) 的 拉 格 明日 形式 


k 
LL(D)+ (> Qi 一 7 (9.36) 


i=1 
其 中 入 为 拉 格 朗 日 乘 子 . 由 式 (9.36) 对 ai 的 导数 为 0, 有 


Tr 


SP He) gy (9.37) 
J=1 >》 ay - p(z; | Hi, Xi) 


Ey 


i 
= 


两 边 同 乘 以 ag, 对 所 有 混合 成 分 求 和 可 知 入 = —m, 有 
1 一 
Qi = A Vii» (9.38) 
a=—=l 


即 每 个 高 斯 成 分 的 混合 系数 由 样本 属于 该 成 分 的 平均 后 验 概率 确定 . 


由 上 述 推导 即 可 获得 高 斯 混合 模型 的 EM 算法 : 在 每 步 迭 代 中 , 先 根据 
当前 参数 来 计算 每 个 样本 属于 每 个 高 斯 成 分 的 后 验 概率 yji (E 步 ), 再 根据 
式 (9.34)、(9.35) 和 (9.38) 更 新 模型 参数 {(ai wi, Li) | 1 <i < k} (MA). 

高 斯 混合 聚 类 算法 描述 如 图 9.6 所 示 . 算法 第 工行 对 高 斯 混合 分 布 的 模型 
参数 进行 初始 化 . 然后 , 在 第 2-12 行 基于 EM 算法 对 模型 参数 进行 迭代 更 新 . 
E EM 算法 的 停止 条 件 满足 (例如 已 达到 最 大 迭 代 轮 数 , 或 似 然 函 数 DL (D) 增 
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EM 算法 的 E 步 . 


EM 算法 的 MH. 


例如 达到 最 大 选 代 轮 数 . 


输入 : 样本 集 D = {£1, £2,..., Em}; 
高 斯 混合 成 分 个 数 k. 


1: 初始 化 高 斯 混合 分 布 的 模型 参数 {(ai, mi, 5) | 1 <i < k} 

2: repeat 

3: for 7 = 1,2,...,m do 

A: 根据 式 (9.30) 计 算 x; HR AE Js aE 8, BY 
Yj = pm(z; =i | a3) (1 <ick) 

5: end for 

for i=1,2,...,k do 

7: 计算 新 均值 向 量 : py = SE 

TE f iT 

8 计算 新 协 方差 矩阵 : wy = EG ees a” 

9: ”计算 新 泥 合 系数 : of = Hat, 

10: end for 

11: ”将 模型 参数 {(ai; wi, Di) | 1 <i <k} BHA {a wi, Ei) | 1 <i<k} 

12: until WATS IEA IF 

13: Ces =O (1 <i<k) 

14: for 7 = 1,2,..., m do 

15: 根据 式 (9.31) 确 定 Tj Hie 1 Aji 

16: Æ æ; 划 入 相应 的 簇 : Cy, = Cr, Ufa; } 

17: end for 

输出 : E C = {C1,Co,...,Cy} 


图 9.6 高 斯 混合 聚 类 算法 


a 


长 很 少 甚 至 不 再 增长 ), 则 在 第 14-17 行 根 据 高 斯 混合 分 布 确定 艇 划分 , 在 第 18 
行 返回 最 终结 果 . 

以 表 9.1 的 西瓜 数据 集 4.0 ABI, 令 高 斯 论 合 成 分 的 个 数 大 = 3. 算法 开始 
时 , 假定 将 高 斯 混合 分 布 的 模型 参数 初始 化 为 : al = ag = as = 4; H1 = £6, 
u2 = wan, a = war; D1 = Ba = Ea = (0 0°). 

EARP, 先 计 算 样 本 由 各 混合 成 分 生成 的 后 验 概 率 . 以 zl 为 例 ， 
由 式 (9.30) 算 出 后 验 概率 7il = 0.219, ?12 = 0.404, 713 = 0.377. 所 有 样本 的 后 
验 概率 算 完 后 , 得 到 如 下 新 的 模型 参数 : 

a, = 0.361, a = 0.323, a = 0.316 


we’, = (0.491; 0.251), ye = (0.571;0.281), u} = (0.534; 0.295) 


= — (0025 0.004) „y _ (0.023 0.004) „~ (0.024 0.005 
' 0.004 0.016)’ < 0.004 oo17/’ ° ° 0.005 0.016 


模型 参数 更 新 后 , 不 断 重 复 上 述 过 程 , KFC NARA A A 9.7 所 示 . 


9.5 ”密度 聚 类 


4-4; “Density-Based S- 
patial Clustering of Appli- 
cations with Noise” , 


ERE GRAB YP, E 
离 函数 dist(.,-) 在 默认 情 
形 下 设 为 欧 氏 距离 . 
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人 l ij.2 i3 ibd 5 ih | rg id a 4. 1 0.2 0.3 Dd 0.5 
密度 密度 
(a) 5 轮 选 代 后 (b) 10 轮 迁 代 后 


0.6 0.7 0.8 0.9 


I] 
由 .上 0.2 t.3 0.4 1.6 1.7 0.8 o.9 O.1 0.2 03 0.4 M0 0.7 0.8 D.F 


FA 密度 
(c) 20 #234405 (d) 50 轮 选 代 后 

9.7 高 斯 混合 聚 类 (太一 3) 在 不 同 轮 数 迭代 后 的 聚 类 结果 . EL PHAR C, Co 与 Cs 

中 的 样本 点 分 别 用 ‘ar cm? 与 Ca" RIK, 各 高 斯 混合 成 分 的 均值 向 量 用 二 表示 . 


9.5 密度 聚 类 


密度 聚 类 亦 称 “基于 密度 的 宫 关 ” (density-based clustering), HEET AR 
设 聚 类 结构 能 通过 样本 分 布 的 紧密 程度 确定 . 通常 情形 下 , 密度 聚 类 算法 从 样 
本 密度 的 角度 来 考察 样本 之 间 的 可 连接 性 , 并 基于 可 连接 样本 不 断 扩 展 聚 类 艇 
以 获得 最 终 的 聚 类 结果 . 

DBSCAN 是 一 种 着 名 的 密度 谷类 算法 , 它 基 于 一 组 “ 邻 域 ” (neigh- 
borhood) 参数 (e, MinPts) 来 刻画 样本 分 布 的 紧密 程度 . 给 定数 据 集 
D = {wi1; £2,..., Em}, 定义 下 面 这 几 个 概念 : 


o ce- 邻 域 : 对 zj € D, 其 e- 邻 域 包含 样本 集 D 中 与 a; 的 距离 不 大 于 的 样 
本 , 即 N. (aj) = {x; € D | dist(x;, æ) < €}; 
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密度 直达 关系 通常 不 满 
足 对 称 性 . 


密度 可 达 关 系 满 足 直 递 
性 ,但 不 满足 对 称 性 ， 


密度 相连 关系 满足 对 称 
HE, 


D + RE FET KA 
本 被 认为 是 噪声 [noise) 或 
弄 常 (anomaly) 样 本 . 


第 9 章 E 类 
e 核心 对 象 (core object): 若 a; 的 ce- 令 域 至 少 包 会 MinPts 个 样本 ， 即 
\Ne(a;)| > MinPts, WW x; 是 一 个 核心 对 象 ; 


e 密度 直达 (directly density-reachable): 4 æj 位 于 x; 的 «Cha, A x; 是 
核心 对 象 , MER ac; 由 a; 密度 直达 ; 


e 密度 可 达 (density-reachable): 对 x; 与 Ej, 若 存 在 样本 序列 p1, po,--- 5 Pn, 
其 中 Pi = £i, Pn = Tj AH Pi+1 HY Pi 密度 直达 ， MJER Ti H Ti ae PE AY IK; 


e 密度 相连 (density-connected): 对 zi 与 æj, 若 存 在 aw, 使 得 mi 5 æj 均 由 
zx 密度 可 达 , 则 称 zi 与 wj 密度 相连 . 


图 9.8 给 出 了 上 述 概 念 的 直观 显示 . 


= O O 
= () rol Teu 
T3 e i a ss O TA 
oN a YT ome 
O) © -Tı 2 _ (*) 
OU © 


图 9.8 DBSCAN 定义 的 基本 概念 (JMinPts = 3): 虚线 显示 出 e- 邻 域 , ri 是 核心 对 
得, ro 由 xı 密度 直达 , a3, baw, 密度 可 达 , ma 与 r, 密度 相连 . 


基于 这 些 概念 , DBSCAN K “HE” ENN: 由 密度 可 达 关 系 导 出 的 最 大 的 
密度 相连 样本 集合 . 形式 化 地 说 , 给 定 邻 域 参 数 (e, MinPts), RCC D HBA 
以 下 性 质 的 非 空 样本 子 集 : 


连接 性 (connectivity): zi € C, zj EC > x; 与 x; 密度 相连 (9.39) 
最 大 性 (maximality): wi € C, zi 由 wi 密度 可 达 >a, EC (9.40) 


那么 ,如何 从 数据 集 DD PHRMA EW ERA RRR? 实际 上 , Aa 
为 核心 对 象 , 由 a 密度 可 达 的 所 有 样本 组 成 的 集合 记 为 式 ={z € D | 
a! FH ao 密度 可 达 }, 则 不 难 证 明 X 即 为 满足 连接 性 与 最 大 性 的 簇 . 

TÆ, DBSCAN 算法 先 任 选 数据 集中 的 一 个 核心 对 象 为 “种 子 ”(seed)， 
再 由 此 出 发 确定 相应 的 聚 类 艇 , 算法 描述 如 图 9.9 所 示 . 在 第 1~7 行 中 , 算法 
先 根 据 给 定 的 邻 域 参数 (e, MinPts) 找 出 所 有 核心 对 象 ; 然后 在 第 10~24 行 中 ， 
以 任 一 核心 对 象 为 出 发 点 , 找 出 由 其 密度 可 达 的 样本 生成 聚 类 艇 , 直到 所 有 核 
心 对 象 均 被 访问 过 为 止 . 


9.5 FERH 
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输入 : PEARSE D = {£1, £2,..., Emy; 
AIRES (e, MinPts). 


过 程 : 
1: 初始 化 核心 对 象 集 合 : N = ø 

2: for 7 = 1,2,..., m do 

3: ”确定 样本 xj 的 e- 邻 域 N. (a5); 
4 if |N.(x;)| > MinPts then 

5 将 样本 xz; 加 入 核心 对 象 集合 : Q = Ur} 

6: end if 

7: end for 

8: PURKI: k = 0 

9: 初始 化 未 访问 样本 集合 :T= D 
10: while Q 4 @ do 
11: ”记录 当前 未 访问 样本 集合 : Toa = 
12: ”随机 选取 一 个 核心 对 象 o ER, 初始 化 队列 Q=<o>; 
13: r=T\ {o}; 
14: while 名 和 do 
15: 取出 队列 @ 中 的 首 个 样本 q; 


16: if |N.(q)| => MinPts then 
17: 4 A= N.(q)f\T 

18: 将 入 中 的 入 本 加 入 队列 Q; 
19: r=r\ A; 

20: end if 


21: end while 

2: k=k+1, ÆRA Ck = Loua \T; 
23: =n Ch 

24: end while 

输出 : RRA C = {C1, C2... Ck} 


9.9 DBSCAN 算法 


以 表 9.1 的 西瓜 数据 集 4.0 为 例 , 假定 邻 域 参数 (e, MinPts) RBA € = 
0.11, MinPts = 5. DBSCAN 算法 先 找 出 各 样本 的 e- 邻 域 并 确定 核心 对 象 集 
合生 三 {x3, £5, £6, T8, T9, T13, T14, T18, T19, T24, T25, T28, T29}. 然后 ， M Q 
随机 选取 一 个 核心 对 象 作为 种 子 , 找 出 由 它 密度 可 达 的 所 有 样本 , S S 
BPS RAR. 不 失 一 般 性 , 假定 核心 对 象 og 被 选中 作为 种 子 , 则 DBSCAN 
生成 的 第 一 个 聚 类 艇 为 


Cc; = {£6, £7, Lg, L190, L12, V18, L19, V20, X23} i 


然后 DBSCAN 将 Ca 中 包含 的 核心 对 象 从 只 FER: 9 = OANCI = 
{£3, £5, £9, £13,214, T24, T25, T28, Log}. 再 从 更 新 后 的 集合 @ 中 随机 选取 一 个 
核心 对 象 作为 种 子 来 生成 下 一 个 聚 类 艇 . 上 述 过 程 不 断 重 复 , BPO AA. 图 
9.10 显示 出 DBSCAN 先后 生成 聚 类 艇 的 情况 . C1 ZIRE RHI RAIA 
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4p its 


il 02 03 04 OS 06 OF DS 09 bi 02 03 os os 06 0.7 O08 09 
密度 密度 
(a) ERKKI Ch (b) ERRI Co 


Na ah 3 thal is T i? id i. Na i.3 us i.4 us Wb uy i.s uu 
ee 密度 
(c) ERKKI Cz (d) ERX Cy 


9.10 DBSCAN 算法 (ce = 0.11, MinPts = 5) RRX j iE IL. 核心 对 象 、 
JF aat HR. RE RRDA “Ce” o “x” 表示, ERT RAT. 


C2 = {£3, Ta 05, to Tis; Pid; L16, 217; 221} ; 
C3 = {£1, £2, T22, T26, T29} : 


Ca = {x24, £25, £27, T28, £30} 。 


9.6 层次 聚 类 


层次 聚 类 (hierarchical clustering) 试 图 在 不 同 层 次 对 数据 集 进 行 划 分 , 从 而 
ERR TE HI SRE SE. 数据 集 的 划分 可 采用 “和 目 底 品 上 ”的 聚合 策略 , 也 可 采 
用 “ 目 顶 向 下 ”的 分 拆 策 略 . 
Phi pai AGNES 是 一 种 采用 目 底 向 上 珍 合 策略 的 层次 眼 类 算法 . 它 先 将 数据 集中 
的 每 个 样本 看 作 一 个 初始 聚 类 簇 , 然后 在 算法 运行 的 每 一 步 中 找 出 距离 最 近 的 


9.6 ”层次 聚 类 


集合 间 的 距离 计算 常 
采用 豪 斯 多 夫 距 离 (Haus- 
dorff distance), 和 参见 习题 
9.2. 


或 dave. 


初始 化 单 样本 有 聚 类 灸 . 


WRR RE S ER. 


i" <J". 
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两 个 聚 类 艇 进行 合并 , 该 过 程 不 断 重 复 , 直至 达到 预 设 的 聚 类 簇 个 数 . 这 里 的 关 
conned 实际 上 , 每 个 簇 是 一 个 样本 集合 , 因此 , 只 需 
采用 关于 集合 的 某 种 距离 即 可 . 例如 , ae RAR Ci 与 Cj, 可 通过 下 面 的 式 子 
来 计算 距离 : 


最 小 距离 : dmin(Ci,C;) = ne in, dist(a, z), (9.41) 
最 大 距离 : dmax(Ci, Cj) = "Eo dist(x, z) , (9.42) 


平均 距离 : davg(Ci, Cj) = Toon 可 可 》 》 dist(z,z) . (9.43) 


rec; zEC; 


显然 , 最 小 距离 由 两 个 簇 的 最 近 样 本 决定 , BRAE S EP Yd PEAS RE, 
而 平均 距离 则 由 两 个 入 的 所 有 样本 共同 决定 . 当 聚 类 簇 距离 由 dmin、dmax 或 


WA: FER D = {21,X2,..., 2m}; 
Be AR REE PS SE E PHL d; 
RRR k. 


3 
4: fori=1,2,...,m do 
5: forj=i 十 1. ,m do 
6 M(i, j) =4(C,,C;); 
7 M (j,i) = M(i,j) 
8 end for 
9: end for 
10: 设置 当前 聚 类 簇 个 数 : q= mm 
11: while g > k do 
12: ” 找 出 距离 最 近 Ha TR Ci- 和 C5; 
i: fs) 合并 Ci 和 Cj : Cp = -一 Cy UC; 3 
14: for j—j*+14*42,....qdo 
15: HRKI Ci 重 编号 为 Cj- 
16: end for 
17: “删除 距离 矩阵 M 的 第 j* 行 与 第 六 列 ; 
18: for j = 1,2,...,q — 1 do 
19: M (i*, j) = d(Cye, C5); 
20: M(j, i*) = MY 只 
21: end for 
22: gq=q-1 
23: end while 


9.11 AGNES 算法 


me 


davg 计算 时 , AGNES 算法 被 相应 地 称 为 “ 单 链接 ”(single-linkage)、“ 全 链 
接 ”(complete-linkage) 或 “ 均 链 接 ”(average-linkage) 算 法 . 


AGNES 算法 描述 如 图 9.11 所 示 . 在 第 1-9 行 , 算法 先 对 仅 含 一 个 样本 的 
初始 紫 类 簇 和 相应 的 距离 和 矩阵 进行 初始 化 ; 然后 在 第 11-23 ÍT, AGNES 不 断 合 
FERREIRA, 并 对 合并 得 到 的 聚 类 簇 的 距离 矩阵 进行 更 新 ; 上 述 过 程 
不 断 重 复 , 直至 达到 预 设 的 聚 类 惫 数 . 


pega a ei 以 西瓜 数据 集 4.0 为 例 , 令 AGNES 算法 一 直 执 行 到 所 有 样本 出 现在 同一 
1. fe, Bk = 1, 则 可 得 到 图 9.12 所 示 的 “ 树 状 图 ” (dendrogram), 其 中 每 层 


FRR ARSE 


12926 22221 3 4 23 25 Z5 24 30 37 5 7 9 17 13 1416 ó 8 18 191020 15 11 12 


样本 编号 


9.12 西瓜 数据 集 4.0 上 AGNES 算法 生成 的 树 状 图 (采用 dmax) 横 轴 对 应 于 样本 
编号 , 纵 轴 对 应 于 聚 类 徐 距 离 . 


在 树 状 图 的 特定 层次 上 进行 分 割 , 则 可 得 到 相应 的 簇 划 分 结果 . 例如 , 以 图 
9.12 中 所 示 虚 线 分 割 树 状 图 , 将 得 到 包含 7 个 聚 类 艇 的 结果 : 


Cı = {£1, £26; £29}; Co = {m2, £3, £4, £21, £22}; 
C3 = {£23, T24, T25; T27, L28; T30}; Ca = {£5, £7}; 
Cs = {mo 213, Vis, ig, £17}; Ce = {me, £8, 210, £15, Lig, Lig, Lag}; 


C7 = {@11, £12}. 


9.7 阅读 材料 


例如 同一 堆 水 果 ,， 既 能 
按 大 小 , LAF ARE, 甚至 
能 按 产 地 聚 类 . 
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将 分 割 层 逐 步 提升 , WA BS RARE i> NAAR. 例如 图 9.13 © 
示 出 了 从 图 9.12 中 产生 7 至 4 个 聚 类 艇 的 划分 结果 . 
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(c) RARA k=5 


密度 
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图 9.13 西瓜 数据 集 4.0 L AGNES 算法 (采用 dmsax) 在 不 同 聚 类 和 乌 数 (k= 二 7, 6, 5, 4) 时 
RATIER 样本 点 用 “e” 表 示 , 红色 虚线 显示 出 狗 划 分 . 
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聚 类 也 许 是 机 器 学 习 中 “新 算法 ”出 现 最 多 、 最 快 的 领域 . 一 个 重要 原因 
是 聚 类 不 存在 客观 标准 ; 给 定数 据 集 , 总 能 从 某 个 角度 找到 以 往 算 法 未 覆盖 的 
某 种 标准 从 而 设计 出 新 算法 [Estivill-Castro, 2002]. 相对 于 机 器 学 习 其 他 分 支 
来 说 , 聚 类 的 知识 还 不 够 系统 化 , 因此 著名 教科 书 [Mitchell, 1997] 中 甚至 没有 
关于 聚 类 的 章节 . 但 聚 类 技术 本 号 在 现实 任务 中 非常 重要 , 因此 本 章 揭 强 采 用 
了 “列举 式 ” 的 叙述 方式 , 相 较 于 其 他 各 章 给 出 了 更 多 的 算法 描述 ， 关 于 聚 类 
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IBS Ses > AIL 10.6 


To FS FEE A BPI A “A 
ER” 84 HRS HH), 


Bregman JE & oF 4h 
Bregman divergence, =— 
类 不 满足 对 称 性 和 直 递 性 
的 距离 ， 


降 维 参见 第 10 =. 


第 9 章 # 类 


更 多 的 内 容 , 可 参阅 这 方面 的 专门 书籍 和 综述 文章 如 [Jain and Dubes, 1988; 
Jain et al., 1999; Xu and Wunsch II, 2005; Jain, 2009] 等 . 

聚 类 性 能 度量 除 9.2 节 的 内 容 外 , 常见 的 还 有 下 值 、 互 信息 (mutual 
information), FIJE ii (average silhouette width) [Rousseeuw, 1987] 等 ， 可 
参阅 [Jain and Dubes, 1988; Halkidi et al., 2001; Maulik and Bandyopadhyay, 
2002]. 


距离 计算 是 很 多 和 学习 任务 的 核心 技术 . 闵可夫 斯 其 距离 提供 了 距离 计算 的 
一 般 形式 . BREDA) FTA rR Zab, 内 积 距 离 、 人 余弦 距离 等 也 很 音 用 , 可 参阅 
[Deza and Deza, 2009]. MinkovDM 在 [Zhou and Yu, 2005] 中 正式 给 出 . 模式 
识别 、 图 像 检 索 等 涉及 复杂 语义 的 应 用 中 常会 涉及 非 度量 距离 [Jacobs et al., 
2000; Tan et al., 2009]. 距离 度量 学 习 可 直接 艇 入 到 聚 类 学 习 过 程 中 [Xing et 
al., 2003). 

k 均值 算法 可 看 作 融 斯 混合 案 关 在 混合 成 分 方 莽 相等、 且 每 个 样本 仅 指 
派 给 一 个 混合 成 分 时 的 特例 .该 算法 在 历史 上 曾 科 不 同 领域 的 笠 者 多 次 重 
新 发 明 , 如 Steinhaus 在 1956 Æ., Lloyd 在 1957 Æ, McQueen 在 1967 年 等 
[Jain and Dubes, 1988; Jain, 2009]. k 均值 算法 有 大 量变 体 , 如 k-medoids 算 
法 [Kaufman and Rousseeuw, 1987] 强制 原型 回 量 必 为 训练 样本 ，K-modes $- 
法 [Huang, 1998] IJ AHE SA BURIE, Fuzzy C-means (简称 FCM) [Bezdek, 1981] 
UJE “RRK” (soft clustering) 算法 , 允许 每 个 样本 以 不 同 程度 同时 属于 多 个 
原型 . 需 注 污 的 是 ,上 均值 类 算法 仅 在 凸 形 簇 结构 上 效果 较 好 . 最 近 研 究 表明 ， 
若 采 用 某 种 Bregman 距离 , 则 可 显著 增强 此 类 算法 对 更 多 类 型 复 结 构 的 适用 性 
[Banerjee et al., 2005]. 引入 核 技 巧 则 可 得 到 核 k 均值 (kernel k-means) 算法 
[Schélkopf et al., 1998], 这 与 谱 聚 类 (spectral clustering) [von Luxburg, 2007] 
有 密切 联系 [Dhillon et al., 2004], 后 者 可 看 作 在 拉 普 拉 斯 特征 映射 (Laplacian 
Eigenmap) 降 维 后 执行 上 均值 上 聚 类 . RAIRA AT m BHF EH, 有 一 些 局 
发 式 用 于 自动 确定 k [Pelleg and Moore, 2000; Tibshirani et al., 2001], 但 常用 
的 仍 是 基于 不 同 友 值 多 次 运行 后 选取 最 佳 结 条 . 

LVQ 算法 在 每 轮 迭 代 中 仅 更 新 与 当前 样本 距离 最 近 的 原型 癌 量 . 同时 
更新 多 个 原型 辐 量 能 显著 提高 收敛 速度 , 相应 的 改进 算法 有 LVQ2、LVQ3 等 
[Kohonen, 2001]. [McLachlan and Peel, 2000] 详细 介绍 了 高 斯 混合 聚 类 , 算法 
中 EM 友人 代 优化 的 推导 过 程 可 参阅 [Bilmes, 1998; Jain and Dubes, 1988]. 

采用 不 同方 式 表 征 样 本 分 布 的 紧密 程度 , 可 设计 出 不 同 的 密度 聚 类 算 
法 , 除 DBSCAN [Ester et al., 1996] 外 , 较 常 用 的 还 有 OPTICS [Ankerst et al., 
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亦 称 outlier detection. 
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1999]. DENCLUE [Hinneburg and Keim, 1998] 等 . AGNES [Kaufman and 
Rousseeuw, 1990] 及 用 了 目 底 问 上 的 聚合 策略 来 产生 层次 聚 类 结构 , 与 之 相 
Jz, DIANA [Kaufman and Rousseeuw, 1990] 则 是 采用 上 自 项 向 下 的 分 拆 入 上 略 . 
AGNES 和 DIANA 部 不 能 对 已 合并 或 已 分 拆 的 人 聚 类 簇 进行 回 济 调整 , 常用 的 
层次 聚 类 算法 如 BIRCH [Zhang et al., 1996|、ROCK [Guha et al., 1999] 等 对 
此 进行 了 改进 . 

聚 类 集成 (clustering ensemble) 通过 对 多 个 聚 类 学 习 器 进行 集成 , 能 有 效 
降低 聚 类 假设 与 真实 聚 类 结构 不 符 、 聚 类 过 程 中 的 随机 性 等 因素 带 来 的 不 利 
影响 , 可 参阅 [Zhou, 2012] 第 7 Fe. 

异常 检测 (anomaly detection) [Hodge and Austin, 2004; Chandola et 
al., 2009] % 16 Bh 38 26 BERS oh EFT, OK eS AT RPO K EAR HE A 
Fei FA, BORE BE E IRAE PERENTA EU A THE ETO“ BS 
性 ”(isolation) 可 快速 检测 出 卉 名 点 [Liu et al., 2012]. 
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西瓜 数据 集 4.0 IL p.202 
表 9.1. 


EP Uh Fe ae 2S 74]. 


习题 


9.1 


9.2 


9.3 


9.4 


9.5 


9.6 


9.7 


9.8 
9.9* 


9.10° 


试 证 明 : p > 1 IN, 闵可夫 斯 基 距 离 满足 距离 度量 的 四 条 基本 性 质 ; 
O<p< 1 时 , 闵可夫 斯 基 距 离 不 满足 直 递 性 , 但 满足 非 负 性 、 同 一 
性 、 对 称 性 ; p HATAKI, 闵可夫 斯 基 距 离 等 于 对 应 分 量 的 最 大 绝 
对 距离 , 即 


n 7 
li > ， on, = za |? = ie 
zie, ( pitin esa ) max |Ziu — Tju 
w= 


同一 样本 空间 中 的 集合 所 与 2 之 间 的 距离 可 通过 “ 豪 斯 多 夫 距 
A” (Hausdorff distance) 计 算 : 


disty(X, Z) = max (distn (X, Z), dist (Z, X)) , (9.44) 
其 中 
distn(X, Z) = max min ||æ — 2||2 (9.45) 


试 证 明 : 豪 斯 多 夫 距 离 满 足 距 离 度 量 的 四 条 基本 性 质 . 

试 析 k 均值 算法 能 否 找 到 最 小 化 式 (9.24) 的 最 优 解 . 

试 编程 实现 上 均值 算法 , 设置 三 组 不 同 的 天 值 、 三 组 不 同 初始 中 心 点 ， 
在 西瓜 数据 集 4.0 上 进行 实验 比较 , 并 讨论 什么 样 的 初始 中 心 有 利 于 
取得 好 结果 . 


基于 DBSCAN 的 概念 定义 , € xr 为 核心 对 象 , 由 zw 密度 可 达 的 所 有 
样本 构成 的 集合 为 X. 试 证 明 : X 满足 连接 性 (9.39) 与 最 大 性 (9.40). 


试 析 AGNES 算法 使 用 最 小 距离 和 最 大 距离 的 区 别 |. 


聚 类 结果 中 车 每 个 能 都 有 一 个 凸 包 (包含 秘 样 本 的 凸 多 面体 ), 且 这 些 
凸 包 不 相交 , 则 称 为 凸 聚 类 . 试 析 本 章 介 绍 的 哪些 聚 类 算法 只 能 产生 
凸 聚 类 , 哪些 能 产生 非 凸 聚 类 ， 


试 设 计 一 个 聚 类 性 能 度量 指标 , 并 与 9.2 市 中 的 指标 比较 . 

试 设计 一 个 能 用 于 混合 属性 的 非 度 量 距离 . 

试 设计 一 个 能 自动 确定 聚 类 数 的 改进 上 均值 算法 , 编程 实现 并 在 西瓜 
数据 集 4.0 上 运行 . 
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今 立 陶 完 的 考 纳 斯 
(Kaunas). 


哥 尼 斯 堡 是 着 名 的 “七 
桥 问 题 ” 发 源 地 ， 今 俄 罗 
Mme THH. 


ey feat E n “aA 
斯 基 时 空 ” 或 “闵可夫 斯 
zE”, 


man & Hall/CRC, Boca Raton, FL. 

Zhou, Z.-H. and Y. Yu. (2005). “Ensembling local learners through multimodal 
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B: Cybernetics, 35(4):725—735. 


小 故事 : 曼哈顿 距离 与 赫 尔 曼 ， 闵 可 夫 斯 基 

曼哈顿 距离 (Manhattan distance) 亦 称 “ 出 租车 几 
何 ”(Taxicab geometry), Æ 4% E A Bk A ak OR |S e Bl A 
AH 2 (Hermann Minkowski, 1864—1909) 所 创 的 词汇 , 其 
得 名 是 由 于 该 距离 标明 了 几何 度量 空间 中 两 点 在 标准 坐标 
系 上 的 绝对 轴 距 总 和 , 这 恰 是 规划 为 方形 区 块 的 城市 里 两 点 
之 间 的 最 短 行程 , 例如 从 曼哈顿 的 第 五 大 道 与 33 街 交 点 前 往 第 三 大 道 与 23 街 
交点 , 需 走 过 (5 一 3) 十 (33 — 23) = 12 个 街区 . 

圆 可 夫 斯 基 出 生 于 俄国 亚 力克 索 塔 斯 (Alexotas) 的 一 个 犹太 人 家 庭 , 由 于 
当时 俄国 政府 迫害 犹太 人 , 他 八 岁 时 随 全 家 移居 普鲁士 哥 尼 斯 堡 , 与 后 来 成 为 
大 数学 家 的 希 尔 伯 特 一 河 之 隔 . 国 可 夫 斯 基 从 小 就 是 著名 神童 , 他 熟 读 莎 士 比 
亚 、 席 勒 和 歌德 的 作品 , 几乎 能 全 文 背诵 《 浮 士 德 》; 八 岁 进入 预科 学 校 , 仅 用 
五 年 半 就 完成 了 八 年 的 学 业 ; 十 七 岁 时 建立 了 nn 元 二 次 型 的 完整 理论 体系 , A 
A THAER FRA ARN EH A. 1908 年 9 月 他 在 科隆 的 一 次 学 术 会 议 上 
做 了 《空间 与 时 间 》 的 著名 演讲 , 提出 了 四 维 时 空 理论 , 为 广义 相对 论 的 建立 
开辟 了 道路 . 不 幸 的 是 , 三 个 月 后 他 死 于 急性 辣 尾 炎 . 

1896 年 闵可夫 斯 基 在 苏黎世 大 学 任教 期 间 , 是 爱 因 斯 坦 的 数学 老师 . BM 
尔 物理 学 奖 得 主 玻 因 曾 说 , 在 闵可夫 斯 基 的 数学 工作 中 找到 了 “相对 论 的 整个 
武器 库 ”. 闵可夫 斯 基 去 世 后 , 其 生前 好 友和 硕 尔 伯 特 整理 了 他 的 遗 作 , 于 1911 
年 出 版 了 《闵可夫 斯 基 全 集 》. 闵可夫 斯 基 的 哥哥 奥斯卡 是 “胰岛 素 之 父 ”,， 
侄子 息 道 夫 是 美国 著名 天 文学 家 . 


者 
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和 参见 8.4 节 ， 
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10.1 大 近邻 学 习 


k it 48(k-Nearest Neighbor, 简称 kNN) 学 习 是 一 种 常用 的 监督 学 习 方 法 ， 
其 工作 机 制 非常 简单 : 给 定 测 试 样本 , 基于 某 种 距离 度量 找 出 训练 集中 与 其 最 
靠近 的 上 个 训练 样本 , 然后 其 于 这 上 个 “邻居 ”的 信息 来 进行 预测 . 通常 , 在 分 
类 任务 中 可 使 用 “投票 法 ”, 即 选 择 这 上 个 样本 中 出 现 最 多 的 类 别 标记 作为 预 
测 结 果 ; 在 回归 任务 中 可 使 用 “平均 法 ”, 即将 这 天 个 样本 的 实 值 输出 标记 的 
平均 值 作 为 预测 结果 ; 还 可 基于 距离 远近 进行 加 权 平 均 或 加 权 投 票 , 距离 越 近 
的 样本 权重 越 大 . 

与 前 面 介 绍 的 学 习 方 法 相 比 ,大 近邻 学 习 有 一 个 明显 的 不 同 之 处 : 它 似 乎 
没有 显 式 的 训练 过 程 ! 事实 上 , 它 是 “懒惰 学 习 ”(lazy learning) 的 著名 代表 ， 
此 类 学 习 技 术 在 训练 阶段 仅仅 是 把 样本 保存 起 来 , 训练 时 间 开 销 为 零 , 待 收 到 
测试 样本 后 再 进行 处 理 ; 相应 的 , 那些 在 训练 阶段 就 对 样本 进行 学 习 处 理 的 方 
法 , 称 为 “急切 学 习 ” (eager learning). 

10.1 给 出 了 天 近邻 分 类 器 的 一 个 示意 图 . 显然 , 是 一 个 重要 参数 , 当 大 
取 不 同 值 时 , 分 类 结果 会 有 显著 不 同 . 另 一 方面 , 若 采 用 不 同 的 距离 计算 方式 ， 
则 找 出 的 “近邻 ”可 能 有 显著 差别 , 从 而 也 会 导致 分 类 结果 有 显著 不 同 . 

暂且 假设 距离 计算 是 “恰当 ”的 , 即 能 够 恰当 地 找 出 天 个 近邻 , 我 们 来 对 
“最 近邻 分 类 器 ”(1NN, 即 大 = 1) 在 二 分 类 问题 上 的 性 能 做 一 个 简单 的 讨论 . 
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图 10.1 天 近邻 分 类 器 示意 图 . 虚线 显示 出 等 距 线 ; 测试 样本 在 大 一 1 或 太一 5 时 被 判 
别 为 正 例 , 天 一 3 时 被 判别 为 反例 . 
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给 定 测试 样本 z, 车 其 最 近邻 样本 为 z, 则 最 近邻 分 类 器 出 错 的 概率 就 是 z 
与 z 类 别 标记 不 同 的 概率 , 即 


P(err) =1 — X P(c | x)P(c| z). (10.1) 
cey 


假设 样本 独立 同 分 布 , 且 对 任意 z 和 任意 小 正 数 6, 在 zw 附近 6 距离 范围 
内 总 能 找到 一 个 训练 样本 ; 换言之 , 对 任意 测试 样本 , 总 能 在 任意 近 的 范围 内 找 
到 式 (10.1) 中 的 训练 样本 z. $ c* = arg maxcey P(e | x) 表示 贝 叶 斯 最 优 分 类 
贝 叶 斯 最 优 分 类 器 参见 器 的 结果 , 有 


7.17. 
P(err) = 1 — > P(c | æ) P(e | z) 

cEY 

~1 -X > P*(c| x) 
cEY 

< 1 — P*(c* | æ) 

= (1 + P (œ | æx))(1 — P (œ | æ)) 

<2 x(1—P(č|æ)). (10.2) 


ee Ne 于 是 我 们 得 到 了 有 点 令 人 惊讶 的 结论 : 最 近邻 分 类 器 虽 简 单 , 但 它 的 泛 化 错误 
更 严格 的 分 析 参 阅 [Cover ” 率 不 超过 贝 叶 斯 最 优 分 类 器 的 错误 率 的 两 倍 ! 


and Hart, 1967]. 


10.2 RERA 


上 一 节 的 讨论 是 基于 一 个 重要 假设 : 任意 测试 样本 z 附近 任意 小 的 5 距 
离 范 围 内 总 能 找到 一 个 训练 样本 , 即 训练 样本 的 采样 密度 足够 大 , 或 称 为 “ 密 
FFE” (dense sample)， 然 而 , 这 个 假设 在 现实 任务 中 通常 很 难 满足 , 例如 车 
6 = 0.001, 仅 考 虑 单个 属性 , 则 仅 需 1000 个 样本 点 平均 分 布 在 归 一 化 后 的 属 
性 取 值 范围 内 , 即 可 使 得 任意 测试 样本 在 其 附近 0.001 距离 范围 内 总 能 找到 一 
个 训练 样本 , 此 时 最 近邻 分 类 器 的 错误 率 不 超过 贝 叶 斯 最 优 分 类 器 的 错误 率 
的 两 倍 ， 然 而 , 这 仅 是 属性 维 数 为 1 的 情形 , 若 有 更 多 的 属性 , 则 情况 会 发 生 
显著 变化 .例如 假定 属性 维 数 为 20, 若 要 求 样本 满足 密 采样 条 件 , 则 至 少 需 
AAR, FUMA (108)20 = 1060 个 样本 . 现实 应 用 中 属性 维 数 经 常 成 千 上 万 , 要 满足 密 采样 条 件 
(一 粒 灰尘 中 含有 几 十 亿 ”所 需 的 样本 数目 是 无 法 达到 的 天 文 数字 . 此 外 , 许多 学 习 方 法 都 涉及 距离 计算 ， 
TE 而 高 维 空间 会 给 距离 计算 带 来 很 大 的 麻烦 , 例如 当 维 数 很 高 时 甚至 连 计算 内 积 


10.2 IRRA 


[Bellman, 1957] wF 4% 
出 ， 亦 称 “ 维 数 诅咒 ”、 
“oe de GFL” . 


另 一 个 重要 途径 是 特征 
选择 , 参见 第 11 Ë. 


227 


都 不 再 容易 . 

事实 上 , 在 高 维 情 形 下 出 现 的 数据 样本 稀 瑰 、 距 离 计 算 困 难 等 问题 ， 
是 所 有 机 器 学 习 方 法 共同 和 面临 的 严重 障碍 , 被 称 为 “ 维 数 灾难 ”(curse of 
dimensionality). 

绥 解 维 数 灾难 的 一 个 重要 途径 是 降 维 (dimension reduction), 让 称 “ 维 数 
约 简 ”, 即 通 过 某 种 数学 变换 将 原始 高 维 属性 空间 转变 为 一 个 低 维 “ 子 空 
间 ”(subspace), 在 这 个 子 空间 中 样本 密度 大 幅 提 高 , 距离 计算 也 变 得 更 为 容 
易 . 为 什么 能 进行 降 维 ? 这 是 因为 在 很 多 时 候 , 人 们 观测 或 收集 到 的 数据 样本 
a Ae fey EIN, 但 与 学 习 任 务 密切 相关 的 也 许 仅 是 某 个 低 维 分 布 , EN a E a 
的 一 个 低 维 “ 艇 入 ”(embedding). 图 10.2 给 出 了 一 个 直观 的 例子 . 原始 高 维 
空间 中 的 样本 后, 在 这 个 低 维 兢 入 子 空间 中 更 容易 进行 学 习 . 


(a) 三 维 空 间 中 观察 到 的 样本 点 (b) 二 维 空间 中 的 曲面 
图 10.2 REKATE R 


F ORK IRAR 2 E P PERL E A EE A TERE E a PFS A ee, 如 图 10.2 所 
7R, 即 得 到 “多 维 缩放 ”(Mmultiple Dimensional Scaling, 简称 MDS) [Cox and 
Cox, 2001] 这 样 一 种 经 典 的 降 维 方法 . 下 面 做 一 个 简单 的 介绍 . 

假定 m 个 样本 在 原始 空间 的 距离 矩阵 为 D e Rm, E iT j 列 的 元 
素 disty 为 样本 a, 到 æ; 的 距离 . 我们 的 目标 是 获得 样本 在 d 维 空间 的 表示 
Ze 了 Raxmid 芝 di 且 任 意 两 个 样本 在 d' 维 空间 中 的 欧 氏 距离 等 于 原始 空间 中 
的 距离 , BY |z; 一 z;|| = distij. 

&B=Z'ZeR™”, 其 中 了 吾 为 降 维 后 样本 的 内 积 和 矩阵 ,pi = zi zj, A 


» 49 2 2 T 
dist} = \\zill? + |lzsll? — 227z; 


= by + bj; — 264; . (10.3) 


0 < 取 4 为 全 零 向 量 . 
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为 便于 讨论 , 令 降 维 后 的 样本 Z 被 中 心 化 , 即 SO, z = O. 显然 , 矩阵 B 
WAT SIZ IAS, 即 Se big = SOG big = 0. 易 知 


TTL 

> dist}; = tr(B) + mbjj , (10.4) 
{=1 

TTL 

` dist; = tr(B) + mb, , (10.5) 
j=1 

TTL TTL 

N > dist?, = 2m tr(B) , (10.6) 
i 二 1 j=1 


其 中 tr() 表示 矩阵 的 迹 (tracej, tr(B) = D2 |lzill2. 令 


i | 
dist; = — 2 disti; , (10.7) 
j=l 
1 TTL 
dist?, = = X dist}, (10.8) 
二 =] 
1 TTL Tn 
a oe \ ,2 
dist? — m2 2d, dist 4 (10.9) 


FA st (10.3) #1 ZR(10.4)~(10.9) A) 
1 | 
bij = —5(dist;, — dist? — dist”, + dist”) , (10.10) 


Hy JHE BY ay seg at Ba ER J DR RF AS ZB AY FB PS FEM D SEH A ARE B. 

xy FE ME B 做 特征 值 分 解 (eigenvalue decomposition), B = VAVT, 其 中 
A = diag(A1,A2, ...,Aa) AFF TEE PY BOWS OT FA EBS, Ad S Ag >... Sra, V 
HFF EER 假定 其 中 有 ad* 个 非 零 特征 值 , “EAT Ta OT FB BBE AL = 
diag(Ai, A2,.--,Aa*), S Wa 表示 相应 的 特征 同 量 和 矩阵, 则 Z 可 表达 为 


Z = APVT e Re Ym. (10.11) 


在 现实 应 用 中 为 了 有 效 降 维 , 往往 仅 需 降 维 后 的 距离 与 原始 空间 中 的 距离 
尽 可 能 接近 , 而 不 必 严 格 相 等 ， 此 时 可 取 d 之 d 个 最 大 特征 值 构成 对 角 和 矩阵 
A = diag( 和 ,A2,...,Xa), 令 V 表示 相应 的 特征 向 量 和 矩阵 , 则 Z 可 表达 为 


10.3” 主 成 分 分 析 


通常 令 d' Ed. 


亦 称 “ 主 分 量 分 析 ”. 
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Z = Al/2VT e RYX™ | (10.12) 


图 10.3 给 出 了 MDS 算法 的 描述 . 


输入 : 距离 矩阵 De R™*™, HLR distij 为 样本 Ti 到 Tj 的 距离 ; 
低 维 空间 维 数 d'. 
过 程 : 
1: 根据 式 (10.7)~(10.9) 计 算 dist? , dist?,, dist?; 
2: 根据 式 (10.10) 计 算 和 矩阵 B; 
3: OT FEME B 做 特征 值 分 解 ; _ 
4: 取 A 为 个 最 大 特征 值 所 构成 的 对 角 和 矩阵 , V 为 相应 的 特征 癌 量 矩阵 . 
输出 : 矩阵 VAN? © RIXE, 每 行 是 一 个 样本 的 低 维 坐标 


10.3 MDS 算法 


一 般 来 说 , 欲 获 得 低 维 子 空 间 , 最 简单 的 是 对 原始 高 维 空间 进行 线性 变换 . 
给 定 d 维 空间 中 的 样本 X = (£1, £2,..., Em) E RIXT, 变换 之 后 得 到 d' < d HE 
空间 中 的 样本 

Z= WTX, (10.13) 


其 中 W e RIX? 是 变换 矩阵 , Z e Rd xm 是 样本 在 新 空间 中 的 表达 . 

变换 矩阵 W 可 视 为 d 个 a 维基 向 量 , z; = Wa, 是 第 i 个 样本 与 这 4d' 个 
基 问 量 分 别 做 内 积 而 得 到 的 d 维 属 性 向 量 . 换言之 , z 是 原 属性 向量 x; 在 新 
AAR FR faoltua wa} PAAR el et. 车 w 与 wj; (i 关 7) IEA, 则 新 坐标 
系 是 一 个 正 交 坐标 系 , 此 时 W 为 正 交 变换 . 显然 , 新 空间 中 的 属性 是 原 空 则 中 
属性 的 线性 组 合 . 

基于 线性 变换 来 进行 降 维 的 方法 称 为 线性 降 维 方法 ,它们 都 符合 
式 (10.13) 的 基本 形式 , 不 同 之 处 是 对 低 维 子 空间 的 性 质 有 不 同 的 要 求 ,， 相 
当 于 对 W 施加 了 不 同 的 约束 . 在 下 一 节 我 们 将 会 看 到 , 若 要 求 低 维 子 空间 对 样 
本 具有 最 大 可 分 性 , 则 将 得 到 一 种 极为 常用 的 线性 降 维 方法 . 

对 降 维 效果 的 评估 , 通常 是 比较 降 维 前 后 学 习 器 的 性 能 , 若 性 能 有 所 提高 
则 认为 降 维 起 到 了 作用 . 若 将 维 数 降 至 二 维 或 三 维 , 则 可 通过 可 视 化 技术 来 直 
观 地 判断 降 维 效果 . 


10.3 主 成 分 分 析 


主 成 分 分 析 (Principal Component Analysis, 简称 PCA) 是 最 常用 的 一 种 
降 维 方法 . 在 介绍 PCA 之 前 , 不 妨 先 考虑 这 样 一 个 问题 : 对 于 正 交 属性 空间 中 
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const 是 一 个 常数 . 


严格 来 说 , tha ZB 
是 mT peer Tit], 但 前 
面 的 常数 项 在 此 不 发 生 
eS), 
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PEAS A, 如 何 用 一 个 超 平 面 (直线 的 局 维 推广 ) 对 所 有 梓 本 进行 恰当 的 表达 ? 
容易 想到 , 大 存在 人 这样 的 超 平面 , 那么 它 大 概 应 具有 这 样 的 性 质 : 
。 最 近 重 构 性 : 样本 点 到 这 个 超 平 面 的 距离 都 足够 近 ; 
。 最 大 可 分 性 : 样本 点 在 这 个 超 平 面 上 的 投影 能 尽 可 能 分 开 . 


有 趣 的 是 , 基于 最 近 重 构 性 和 最 大 可 分 性 , 能 分 别 得 到 主 成 分 分 析 的 两 种 
等 价 推导 . 我 们 先 从 最 近 重 构 性 来 推导 . 

假定 数据 样本 进行 了 中 心 化 , BID, zi = 0; 再 假定 投影 变换 后 得 到 的 新 坐 
标 系 为 {wi,we,...,wa}, 其 中 w 是 标准 正 交 基 疝 量 , will = 1, wp wj = 0 
(i Af). 若 丢 弃 新 坐标 系 中 的 部 分 坐标 , 即将 维度 降低 到 d < d, 则 样本 点 x; 
在 低 维 坐标 系 中 的 投影 是 zi = (zi1; zi2; zia), 其 中 zi = wha; 是 mi 在 低 
维 坐 标 系 下 第 j 维 的 坐标 . 若 基 于 zi REY zi, 则 会 得 到 人 = TO, zijwj 

考虑 整个 训练 集 , 原样 本 点 wi 与 基于 投影 重 构 的 样本 点 人 ; 之 间 的 距离 为 


m d’ i m m 
>》 `O ZijWw; — Till = >》 ， a'a- > zi Wæ; + const 
i=1 ||j=1 > i=l i=1 
m 
cc —tr (w: (> za?) w) (10.14) 
i=1 


wj 是 标准 正 交 基 , J; cxl 是 协 方差 矩阵 , 有 


min — tr (WXXW) (10.15) 
W 
s.t. WIW =I. 


XE ERTI AT AA HFR. 

从 最 大 可 分 性 出 发 , 能 得 到 主 成 分 分 析 的 砾 一 种 解释 . BOAT AI, EE 
zi 在 新 空间 中 超 平面 上 的 投影 是 W zi 若 所 有 样本 点 的 投影 能 尽 可 能 分 开 ， 
则 应 该 使 投影 后 样本 点 的 方差 最 大 化 , 如 图 10.4 所 示 . 

投影 后 样本 点 的 方差 是 》, Wlaje? W, 于 是 优化 目标 可 写 为 


max tr (W XX W) (10.16) 


s.t. W'We= lI, 


10.3 主 成 分 分 析 


实践 中 常 通过 对 其 进行 
奇异 值 分 解 来 代替 协 方差 
矩阵 的 特征 值 分 解 . 


PCA 也 可 看 作 是 逐一 选 
取 方 差 最 大 方向 , 即 先 对 
协 方差 矩阵 PeT 做 
特征 值 分 解 , 取 最 大 特征 
值 对 应 的 特征 向 量 wi; 
再 对 i wari 一 Arwiw} 
做 特征 值 分 解 ， 取 最 大 特 
征 值 对 应 的 特征 向 量 wa; 
时 WW 各 分 量 正 交 及 


TE d 
> rir 一 X Ajwjwj 
二 了 3 二 1 

最 大 方向 的 做 法 与 直接 选 
RRA d 个 特征 值 等 价 . 


201 
0 | a X 
图 10.4 使 所 有 样本 的 投影 尽 可 能 分 开 ( 如 图 中 红线 所 示 ), 则 需 最 大 化 投影 点 的 方差 
显然 , 式 (10.16) 与 (10.15) 等 价 . 
对 式 (10.15) 或 (10.16) 使 用 拉 格 度 日 乘 子 法 可 得 
XX! w; 一 Mwi ， (10.17) 


于 是 , 只 需 对 协 方差 矩阵 KXT 进行 特征 值 分 解 ， 将 求 得 的 特征 值 排 序 : 
à È Aù È... È rg, FRB d 个 特征 值 对 应 的 特征 问 量 构成 W* = (wy, 
we,..., Wa). 这 就是 主 成 分 分 析 的 解 . PCA 算法 摘 述 如 图 10.5 所 示 . 


WA: HER D = {£1, £2,- -Emh 
低 维 空间 维 数 d. 
过 程 : 
1: 对 所 有 样本 进行 中 心 化 : mi 4 xi — +O", Ti; 
2: 计算 样本 的 协 方差 矩阵 KXT; 
3: 对 协 方差 窍 阵 XOX T 做 特征 值 分 解 ; 
4: 取 最 大 的 d 个 特征 值 所 对 应 的 特征 同 量 w, wa,..., Wa. 
输出 : 投影 算 阵 W™* = (wi, we,..., War). 


10.5 PCA 算法 


降 维 后 低 维 空间 的 维 数 dd! 通 弟 是 由 用 户 事 先 指 定 , 或 通过 在 d 值 不 同 的 
低 维 空间 中 对 大 近邻 分 类 器 (或 其 他 开销 较 小 的 学 习 器 ) 进行 交叉 验证 来 选取 
较 好 的 d' 值 . XF PCA, KER) MARIAN FG a “PBL, 例如 t= 二 95%, A 


后 选取 使 下 陈 成 立 的 最 小 d 值 : 


>i; (10.18) 
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保存 均值 向 量 是 为 了 通 
过 向 量 减法 对 新 样本 同样 
进行 中 心 化 . 
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PCA (ita fe FA W* 与 样本 的 均值 向 量 即 可 通过 简单 的 同 量 减法 和 算 阵 - 问 
量 乘 法 将 新 样本 投影 至 低 维 空间 中 . 显然 , 低 维 空间 与 原始 高 维 空间 必 有 不 同 ， 
因为 对 应 于 最 小 的 d 一 ZV 个 特征 值 的 特征 问 量 被 舍弃 了 , RE EE BLA A. 
但 舍弃 这 部 分 信息 往往 是 必要 的 : 一 方面 , 舍弃 这 部 分 信息 之 后 能 使 样本 的 采 
样 密度 增 大 , 这 正 是 降 维 的 重要 动机 ; 为 一 方面 , 当 数 据 受 到 噪声 影响 时 , 最 小 
的 特征 值 所 对 应 的 特征 回 量 往往 与 噪声 有 天, 将 它们 舍弃 能 在 一 定 程 度 上 起 到 
去 噪 的 效 采 . 


10.4 核 化 线性 降 维 


线性 降 维 方法 假设 从 高 维 空间 到 低 维 空间 的 函数 映射 是 线性 的 , 然而 , 在 
不 少 现 实 任务 中 , 可 能 需要 非 线 性 上 映 味 才能 找到 恰当 的 低 维 租 入 . 图 10.6 给 出 
了 一 个 例子 , 样本 点 从 二 维 空间 中 的 矩形 区 域 采 样 后 以 S 形 曲 看 嵌入 到 三 维 空 
则 , 大和 直 接 使 用 线性 降 维 方法 对 三 维 空间 观察 到 的 样本 点 进行 降 维 , 则 将 丢失 
原本 的 低 维 结构 . 为 了 对 “原本 采样 的 ” 低 维 空间 与 降 维 后 的 低 维 空间 加 以 区 
A, 我 们 称 前 痢 为 “本 大”(intrinsic) 低 维 空间 . 


(a) 三 维 空间 中 的 观察 维 结构 (c) PCA 降 维 结果 


10.6 三 维 空间 中 观察 到 的 3000 个 样本 点 , 是 从 本 真 二 维 室 间 中 和 矩 形 区 域 采 样 后 
以 S 形 曲 面 府 入 , 此 情形 下 线性 降 维 会 丢失 低 维 结构 . 图 中 数据 点 的 染色 显示 出 低 维 
空间 的 结构 . 


非 线性 降 维 的 一 种 常用 方法 , 是 基于 核 技巧 对 线性 降 维 方法 进行 “ 核 
化 ”(kernelized). 下 面 我 们 以 核 主 成 分 分 析 (Kernelized PCA, 简称 KPCA) 
[Schalkopf et al., 1998] 为 例 来 进行 演示 . 

假定 我 们 将 在 高 维特 征 空间 中 把 数据 投影 到 由 W = (w, wo,..., wa) Mi 
定 的 超 平 面 上 , 则 对 于 wj, 由 式 (10.17) 有 


m i 
(> =- Wj = AjW; 5 (10.19) 
i=1 
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其 中 zi 是 样本 所 zi 在 局 维特 征 空间 中 的 像 . Sy KN 


w; | 
4 一 T 
= a 
= (10.20) 


其 中 = zzi wj 是 是 ai 的 第 了 个 分 量 . 假定 zi 是 由 原始 属性 空间 中 的 样本 
点 Ti 通过 映射 o PÆ, BH z; = $(2i), i = 1,2,...,m. Æ Q REITIN KIS h 
K, 则 通过 它 将 样本 映射 至 高 维特 征 空间 ， 再 在 特 征 空间 中 实施 PCA 即 可 . 
式 (10.19) 变 换 为 
(> seata") Wj = ÀjWj , (10.21) 
i=1 


式 (10.20) 变 换 为 
wj = X (Ti)at . (10.22) 


2—1 


一 般 情 形 下 , 我 们 不 清楚 o 的 具体 形式 , 于 是 引入 核 函 数 
(a,j) = O(a)" O(as) - (10.23) 
4 zh (10.22) Fl (10.23) RA zk (10.21) Ja th fa AT 79 
ka’ = Ajal , (10.24) 


其 中 K X n MAREE, (K)ij = klei wj), af = (ads 08;...;0%,). BR, 
式 (10.24) 是 特征 值 分 解 问题 , 取 K 最 大 的 d 个 特征 值 对 应 的 特征 向 量 即 可 . 


对 新 样本 x, 其 投影 后 的 第 了 (7 = 1,2,...,d) 维 坐 标 为 


z; = WP Ole) = X ajoe) Tola) 


i=] 
TTL 
= Sod K(axi, x) , (10.25) 
oe | 


其 中 ai 已 经 过 规范 化 . 式 (10.25) 显 示 出 , 为 获得 投影 后 的 坐标 ，KPCA 需 对 所 
有 样本 求 和 , 因此 它 的 计算 开销 较 大 . 
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10.5 流 形 学 习 


流 形 学 习 (manifold learning) 是 一 类 信和 鉴 了 拓扑 流 形 概念 的 降 维 方法 . 
“ 流 形 ” 是 在 局 部 与 欧 氏 空间 同 胚 的 空间 , 换言之 , 它 在 局 部 具有 欧 氏 空间 的 
性 质 , 能 用 欧 氏 距离 来 进行 距离 计算 . 这 给 降 维 方法 带 来 了 很 大 的 启发 : 若 低 
维 流 形 散 入 到 高 维 空间 中 , 则 数据 样本 在 高 维 空间 的 分 布 虽 然 看 上 去 非常 复杂 ， 
但 在 局 部 上 仍 具 有 欧 氏 空间 的 性 质 , 因此 , 可 以 容易 地 在 局 部 建立 降 维 映射 关 
系 , 然后 再 设法 将 局 部 映射 关系 推广 到 全 局 . 当 维 数 被 降 至 二 维 或 三 维 时 , 能 对 
数据 进行 可 视 化 展示 , 因此 流 形 学 习 也 可 被 用 于 可 视 化 . 本 和 介绍 两 种 著名 的 
10.5.1 等 度量 映射 


等 度量 映射 (Isometric Mapping, 简称 Isomap) [Tenenbaum et al., 2000] 的 
基本 出 发 点 , 是 认为 低 维 流 形 散 入 到 高 维 空间 之 后 , 直接 在 高 维 空 间 中 计算 直 
线 距 离 具 有 误导 性 , 因为 高 维 宇 间 中 的 直线 距离 在 低 维 能 入 流 形 上 是 不 可 达 的 . 
如 图 10.7(a) 所 示 , (RAE RATE EP A eee A ee “Mikk” (geodesic) FER: 
AA — RPM Me BI aA, 如 果 它 不 能 脱离 曲面 行走 , 那么 图 10.7(a) 中 
的 红色 曲线 是 距离 最 短 的 路 径 , BE S 曲面 上 的 测 地 线 , 测 地 线 距 离 是 两 点 之 间 
的 本 真 距离 . 显然 , 直接 在 高 维 空间 中 计算 直线 距离 是 不 恰当 的 . 


= RE 
+ 
» Ww 


B ae 


(a) 测 地 线 距 离 与 高 维 直 线 距离 (b) 测 地 线 距 离 与 近邻 距离 


图 10.7 低 维 明 入 流 形 上 的 测 地 线 距 离 (红色 ) 不 能 用 高 维 空间 的 直线 距离 计算 , 但 能 
用 近邻 距离 来 近似 


那么 , 如 何 计 算 测 地 线 距 离 呢 ? 这 时 我 们 可 利用 流 形 在 局 部 上 与 欧 氏 空间 
AEAEE, 对 每 个 点 基于 欧 氏 距离 找 出 其 近邻 点 , 然后 就 能 建立 一 个 近邻 
连接 图 , 图 中 近邻 点 之 间 存 在 连接 , 而 非 近 邻 点 之 间 不 存在 连接 , TH, 计算 两 


10.5 流 形 学 习 


1972 年 图 灵 奖 得 主 E. 
W. Dijkstra 和 1978 年 图 灵 
奖 得 主 R. Floyd 分 别提 出 
的 著名 算法 ， AM Aces 
HAF. 


MDS JL 10.2 节 ， 
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点 之 则 测 地 线 距离 的 问题 , 就 转变 为 计算 近邻 连接 图 上 两 点 之 间 的 最 短路 径 问 
题 . 从 图 10.7(b) 可 看 出 , 基于 近邻 距离 逼近 能 获得 低 维 流 形 上 测 地 线 距离 很 好 
的 近似 . 

在 近邻 连接 图 上 计算 两 点 间 的 最 短路 径 , 可 采用 著名 的 Dijkstra 算法 或 
Floyd 算法 , 在 得 到 任意 两 点 的 距离 之 后 , 就 可 通过 10.2 节 介 绍 的 MDS 方法 来 
获得 样本 点 在 低 维 空间 中 的 坐标 . 图 10.8 给 出 了 Isomap 算法 描述 . 


输入 : 样本 集 D= {1, ye Bays 
近邻 参数 k; 
低 维 空间 维 数 d. 

程 : 


fori =1,2,...,m do 
确定 x; 的 天 近邻 ; 
zi 与 上 近邻 点 之 间 的 距离 设置 为 欧 氏 距离 , 与 其 他 点 的 距离 设置 为 无 穷 大 ; 
end for 
: 调用 最 短路 径 算 法 计算 任意 两 样本 点 之 间 的 距离 dist (zi, zj); 
: 将 dist(x;, xj) 作为 MDS 算法 的 输入 ; 
return MDS 算法 的 输出 
输出 : 样本 集 D 在 低 维 空间 的 投影 Z = {2z1, z2,..., zm}. 


rE 


图 10.8 Isomap 算法 


需 注 意 的 是 , Isomap 仪 是 得 到 了 训练 样本 在 低 维 空间 的 坐标 , 对 于 新 样本 ， 
如 何 将 其 映射 到 低 维 空间 呢 ? 这 个 问题 的 常用 解决 方案 , 是 将 训练 样本 的 高 维 
空间 坐标 作为 输入 、 低 维 空间 坐标 作为 输出 , 训练 一 个 回归 学 习 器 来 对 新 样本 
的 低 维 空间 坐标 进行 预测 . 这 显然 仅 是 一 个 权宜 之 计 , 但 目前 似乎 并 没有 更 好 
的 办 法 . 

对 近邻 图 的 构建 通常 有 两 种 做 法 , 一 种 是 指定 近邻 点 个 数 , 例如 欧 氏 距离 
最 近 的 天 个 点 为 近邻 点 , 这 样 得 到 的 近邻 图 称 为 下 近邻 图 ; 另 一 种 是 指定 距离 
BA e, 距离 小 于 的 点 被 认为 是 近邻 点 , 这 样 得 到 的 近邻 图 称 为 e 近 邻 图 . 两 
种 方式 均 有 不 足 , 例如 看 近邻 范围 指定 得 较 大 , 则 距离 很 远 的 点 可 能 被 误 认 为 
近邻 , 这 样 就 出 现 “ 短 路 ”问题 ; 近邻 范围 指定 得 较 小 , 则 图 中 有 些 区 域 可 能 与 
其 他 区 域 不 存在 连接 , 这 样 就 出 现 “ 断 路 ”问题 . 短路 与 断路 都 会 给 后 续 的 最 
短路 径 计 算 造 成 误导 . 
10.5.2 AABK TERRA 


与 Isomap Ù AA iR FF Ut AE FF AS Z E AY BBS 7S E, J a R PE R A. (Locally 
Linear Embedding, 简称 LLE) [Roweis and Saul, 2000] 试图 保持 邻 域 内 样本 之 
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10.9 高 维 空间 中 的 样本 重 构 关系 在 低 维 空间 中 得 以 保持 


间 的 线性 关系 . 如 图 10.9 所 示 , 假定 样本 后 zi 的 坐标 能 通过 它 的 邻 域 样本 zj， 
Lk, Tl 的 坐标 通过 线性 组 合 而 重 构 出 来 , 即 


Ly Wiy Ti + WEEE + Wy] , (10.26) 


LLE 4s 33 5K (10.26) AI REIRE T B) PS RS. 
LLE 先 为 每 个 样本 x; 找到 其 近邻 下 标 集 合 Qi, 然后 计算 出 基于 Q 中 的 
样本 点 对 ac, 进行 线性 重 构 的 系数 wi: 


2 
TTL 
w1 ea > |æ - > Wize; (10.27) 
?一 jEQ; 2 
> wij=1, 
FEQ: 
其 中 mi 和 zj 均 为 已 知 , 令 Cjk = (x; — wj)? (xi — wr), wis 有 闭 式 解 
ZO 
Cli 
a = (10.28) 
Zs Cn 
LscQ); 


LLE 在 低 维 空间 中 保持 w AAS, 于 是 mi WV IRE T BAB oe zi 可 通过 


2 


(10.29) 


"e | 


-> Wij Ay 


JE: 


12 


式 (10.27) 与 (10.29) 的 优化 目标 同形 , 唯一 的 区 别 是 式 (10.27) 中 和 需 确 定 的 是 
wi, 而 式 (10.29) 中 需 确定 的 是 mi 对 应 的 低 维 空间 坐标 zi. 
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亦 称 “距离 度量 学 习 ” 


(distance metric learning). 
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令 Z = (21, 22,...,2m) E R?*™, (W)ij = Wij, 
= (1 — W) (1 — W), (10.30) 
则 式 (10.29) 可 重 写 为 
min tr(ZMZ"), (10.31) 
st. ZZ 一 工 . 


式 (10.31) 可 通过 特征 值 分 解 求解 : M 最 小 的 d 个 特征 值 对 应 的 特征 向 量 组 成 
的 和 矩阵 即 为 ZT. 

LLE 的 算法 描述 如 图 10.10 Bras. 算法 第 4 行 显示 出 : 对 于 不 在 样本 x; 邻 
域 区 域 的 样本 xj, 无 论 其 如 何 变 化 都 对 zx; 和 zi; 没有 任何 影响 ; 这 种 将 变动 限 
制 在 局 部 的 思想 在 许多 地 方 都 有 用 . 


RA: PEASE D 二 {21,22,...,2m)}; 
近邻 参数 k; 
低 维 空间 维 数 a’. 


3 从 式 (10. 27) 求 得 wij, j E Qi; 
4 MF j Qi, 令 wiz = 0; 
5: end for 
6: | M; 
8: return M 的 最 小 d 个 特征 值 对 应 的 特征 向 量 
输出 : PEASE D ZE(R AEA Nee Z = {zl, 22,..., Zm} 


10.10 LLE 算法 


10.6 度量 学 习 


在 机 器 学 习 中 , 对 融 维 数据 进行 降 维 的 主要 目的 是 币 望 找到 一 个 合适 的 低 
HAER, 在 此 空间 中 进行 学 习 能 比 原 始 空 间 性 能 更 好 . 事实 上 , 每 个 空间 对 应 了 
在 样本 属性 上 定义 的 一 个 距离 度量 , 而 寻找 合适 的 空间 , 实质 上 就 是 在 寻找 一 
个 合适 的 距离 度量 . 那么 , 为 何不 直接 尝试 “学 习 ” 出 一 个 合适 的 距离 度量 呢 ? 
这 就 是 度量 学 习 (metric learning) 的 基本 动机 . 
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欲 对 距离 度量 进行 学 习 , 必须 有 一 个 便于 学 习 的 距离 度量 表达 形式 . 9.3 节 
给 出 了 很 多 种 距离 度量 的 表达 式 , 但 它们 都 是 “固定 的 ”、 没 有 可 调节 的 参数 ， 
因此 不 能 通过 对 数据 样本 的 学 习 来 加 以 改善 . 为 此 , 我 们 先 来 做 一 个 推广 . 


即 欧 氏 距离 的 平方 , 这 StS J HERE . . AT S J2 Rp (=> 
£35 > 2a = He A. 对 两 个 d 维 样本 mi 和 wj, 它们 之 间 的 平方 欧 氏 距离 可 写 为 
dist24(xi,x;) = ||a; — xz;||2 = disti; 十 dist; 2 十 ... 十 dist; a , (10.32) 


其 中 distijh 表示 mi 与 ay 在 第 大 维 上 的 距离 . 若 假定 不 同属 性 的 重要 性 不 同 ， 
则 可 引入 属性 权重 w, 得 到 
2 


dist? .4(ai,2;) = ||a; — æl? = wr - dist; 1 + We - dist: , 2 +...+ Wa: disti; g 


= (x; — £j) W (x; — £3) , (10.33) 


其 中 w; > 0, W = diag(w) 4: —P XT FA ERE, (W)i = wi. 


式 (10.33) 中 的 W 可 通过 学 习 确 定 , 但 我 们 还 能 再 往 前 走 一 步 : W 的 非 对 
角 元 素 均 为 零 , 这 意味 着 坐标 轴 是 正 交 的 , 即 属性 之 间 无 关 ; 但 现实 问题 中 往往 
不 是 这 样 , 例如 考虑 西瓜 的 “重量 ”和 “体积 ”这 两 个 属性 , 它们 显然 是 正 相 
| 关 的 , 其 对 应 的 坐标 轴 不 再 正 交 . 为 此 , 将 式 (10.33) 中 的 W RAP 
ee “ETE RE YT PR M, 于 是 驶 得 到 了 马 氏 距离 (Mahalanobis distance) 
标准 马 氏 距离 中 M 是 协 
oe distan (wi, zj) = (wi — j)"M (a; — 24) = li — æ; lfa ， (10.34) 
赋予 更 大 的 灵活 性 . 
其 中 MIE “RERE” |, 而 度量 学 习 则 是 对 M 进行 学 习 . 注意 到 为 了 保持 
距离 非 负 且 对 称 ，M 必须 是 ( 半 ) 正 定 对 称 和 矩阵 , 即 必 有 正 交 基 P 使 得 M 能 写 
为 M = PPT. 


对 M 进行 学 习 当 然 要 设置 一 个 目标 . 假定 我 们 是 希望 提高 近邻 分 类 器 
的 性 能 , 则 可 将 M 直接 奶 入 到 近邻 分 类 器 的 评价 指标 中 去 , 通过 优化 该 性 能 
指标 相应 地 求 得 M. 下 面 我 们 以 近邻 成 分 分 析 (Neighbourhood Component 
Analysis, 人 简称 NCA) [Goldberger et al., 2005] 为 例 进 行 讨 论 . 


近邻 分 关 嚣 在 进行 判 列 时 通 稼 使 用 多 数 投 票 法 , 邻 域 中 的 每 个 样本 投 1 SR, 
邻 域外 的 样本 投 0 票 . 不 妨 将 其 替换 为 概率 投票 法 . 对 于 任意 样本 zj;, ERT r 
分 类 结果 影响 的 概率 为 
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留 一 法 参见 2.2.2 F, 


可 用 随机 梯度 下 降 法 求 
解 [Goldberger et al., 2005]. 
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exp (- |æ; 一 zjllax 
E exp (= ws — alla) 
Mi= j Hf, pij 最 大 . BA, a; 对 mi Nib ee EIS PBA kA. 
若 以 留 一 法 (LOO) 正确 率 的 最 大 化 为 目标 , 则 可 计算 zx; 的 留 一 法 正确 率 ， B 
它 被 上 自身 之 外 的 所 有 样本 正确 分 类 的 概率 为 


Pij = (10.35) 


Pi = >》, Pij ， (10.36) 


jE 


其 中 Q 表示 与 zi 属于 相同 类 别 的 样本 的 下 标 集合 . 于 是 , 整个 样本 集 上 的 留 


一 法 正确 率 为 
` Pi = `S `S Pij - (10.37) 


i=1 i=l jen; 
将 式 (10.35) 代 入 (10.37), 再 考虑 到 M = PPT, U NCA 的 优化 目标 为 


| m exp (—||PTa; — PT2;||2) 
min 1-7 >> 


Sy . (10.38) 
1 jem, Dy exp (= [PT as — PTxilI3) 


求解 式 (10.38) 即 可 得 到 最 大 化 近邻 分 类 器 LOO EEE AS REEERE M. 


实际 上 , 我 们 不 仅 能 把 错误 率 这 样 的 监督 学 习 目 标 作 为 度量 学 习 的 优化 有 目 
标 , 还 能 在 度量 和 学习 中 引入 领域 知识 . 例如 , 者 已 知 某 些 样本 相似 、 某 些 样本 
不 相似 , 则 可 定义 “ 必 连 ”(must-link) 约 束 集合 M 5 “AW” (cannot-link)#4 
RERA C, (zizj) E M 表示 x; 与 zj 相似 , (xi, £) EC 表示 mi 与 zw 不 相似 . 
显然 , 我 们 希望 相似 的 样本 之 间距 离 较 小 , 不 相似 的 样本 之 间距 离 较 大 , 于 是 可 
通过 求解 下 面 这 个 凸 优化 问题 获得 适当 的 度量 窍 阵 M [Xing et al., 2003]: 


min JO lel (10.39) 
(ripDJJEAT 

st JO lini —aall > 1, 
(x; ,0%)EC 
M =O, 


其 中 约束 M > 0 表明 M 必须 是 半 正 定 的 . 式 (10.39) 要 求 在 不 相似 样本 间 的 距 
离 不 小 于 1 的 前 提 下 , 使 相似 样本 间 的 距离 尽 可 能 小 . 
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度量 学 习 自 身 通常 并 不 
要 求学 得 的 M 是 低 秩 的 . 


参见 第 13 Ë. 


半 监 督 聚 类 见 13.6 7. 
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不 同 的 度量 学 习 方 法 针对 不 同 目标 获得 “好 ”的 半 正 定 对 称 距 离 度 量 和 矩 
Be M, 4 M 是 一 个 低 秩 和 矩阵, 则 通过 对 M 进行 特征 值 分 解 , 总 能 找到 一 组 正 
交 基 , 其 正 交 基数 目 为 矩阵 M 的 秩 rank(M), 小 于 原 属 性 数 d. 于 是 , 度量 学 习 
学 得 的 结果 可 衍生 出 一 个 降 维和 矩阵 P e Rdxrank(M), 能 用 于 降 维 之 目的 . 


10.7 阅读 材料 


籁 惰 学 习 方法 主要 有 近邻 学 习 器 、 懒 惰 决 策 树 [Friedman et al., 1996]; 
村 素 贝 叶 斯 分 类 器 能 以 懒惰 学 习 方 式 使 用 , 也 能 以 急切 学 习 方 式 使 用 . 关于 懒 
情 学 习 的 更 多 内 容 可 参阅 [Aha, 1997]. 

主 成 分 分 析 是 一 种 无 监督 的 线性 降 维 方法 , 监督 线性 降 维 方法 最 著名 的 
是 线性 判别 分 析 (LDA) [Fisher, 1936], 参见 3.4 节 , 其 核 化 版 本 KLDA [Baudat 
and Anouar, 2000] 参见 6.6 节 . 通过 最 大 化 两 个 变量 集合 之 间 的 相关 性 , 则 可 
得 到 “典型 相关 分 析 ”(Canonical Correlation Analysis, Hør CCA) [Hotelling， 
1936] 及 其 核 化 版 本 KCCA [Harden et al., 2004], 该 方法 在 多 视图 学 习 (maulti- 
view learning) 中 有 上 广泛 应 用 ， 在 模式 识别 领域 人 们 发 现 , 直接 对 窍 阵 对 
象 (例如 一 幅 图 像 ) 进 行 降 维 操作 会 比 将 其 拉 伸 为 癌 量 (例如 把 图 像 逐 行 拼接 
成 一 个 同 量 ) 再 进行 降 维 操作 有 更 好 的 性 能 , 于 是 产生 了 2DPCA [Yang et al., 
2004]. 2DLDA [Ye et al., 2005]. (2D)?PCA [Zhang and Zhou, 2005] 等 方法 ， 
以 及 基于 张 量 (tensor) 的 方法 [Kolda and Bader, 2009]. 

除了 Isomap 和 LLE, 币 见 的 流 形 尝 习 方法 还 有 拉 普 拉 斯 特征 映射 (Lapl- 
cian Eigenmaps, 人 简称 LE) [Belkin and Niyogi, 2003]、 局 部 切 空 间 对 齐 (Local 
Tangent Space Alignment, 简称 LTSA) [Zhang and Zha, 2004] 等 . 局 部 保持 投 
(Locality Preserving Projections, 简称 LPP) [He and Niyogi, 2004] 是 基于 
LE 的 线性 降 维 方法 . 对 监督 学 习 而 言 , 根据 类 别 信 息 扭 曲 后 的 低 维 空间 常 比 本 
真 低 维 空间 更 有 利 [Geng et al., 2005]. 值得 注意 的 是 , TIES KA ET 
域 保 持 则 需 样 本 密 杀 样 , 而 这 恰 是 局 维 情形 下 面临 的 重大 障碍 , 因此 流 形 学 习 
方法 在 实践 中 的 降 维 性 能 往往 没有 预期 的 好 ; 但 邻 域 保持 的 想法 对 机 占 竺 习 的 
其 他 分 支 产 生 了 重要 影响 , 例如 半 监 督学 习 中 有 关 名 的 流 形 假设 、 流 形 正则 化 
[Belkin et al., 2006]. [Yan et al., 2007] 从 图 租 入 的 角度 给 出 了 降 维 方法 的 一 个 
25, — HEAR. 

将 必 连 关系 、 勿 连 关系 作为 学 习 任务 优化 目标 的 约束 , 在 半 监 督 聚 类 的 研 
究 中 使 用 得 更 早 [Wagstaff et al., 2001]. 在 度量 学 习 中 , 由 于 这 些 约 束 是 对 所 有 
样本 同时 发 生 作 用 [Xing et al., 2003], 因此 相应 的 方法 被 称 为 全 局 度量 学 习 方 


10.7 ”阅读 材料 
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法 . 人 们 也 尝试 利用 局 部 约束 (例如 邻 域内 的 三 元 关系 ), 从 而 产生 了 局 部 距离 
度量 学 习 方 法 [Weinberger and Saul, 2009], 甚至 有 一 些 研究 试图 为 每 个 样本 
产生 最 合适 的 距离 度量 [Frome et al., 2007; Zhan et al., 2009]. 在 具体 的 学 习 
与 优化 求解 方面 , 不 同 的 度量 学 习 方 法 往往 采用 了 不 同 的 技术 , 例如 [Yang et 
al., 2006] 将 度量 学 习 转 化 为 判别 式 概 率 模型 框架 下 基于 样本 对 的 二 分 类 问题 
求解 , [Davis et al., 2007] 将 度量 学 习 转 化 为 信息 论 框架 下 的 Bregman 优化 问 
题 , 能 方便 地 进行 在 线 学 习 . 
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习题 


10.1 
西瓜 数据 集 3.0a JL p.89 
的 表 4.5. 


10.2 


10.3 


10.4 


10.5 


princomp 函数 调用 , 10.6 


Yale A Be # HE EH L 

http: / /vision.ucsd.edu /content 
ale-face-database. 

/y 10.7 


10.8* 


10.9* 
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编程 实现 上 近邻 分 类 器 , 在 西瓜 数据 集 3.0a 上 比较 其 分 类 边界 与 决 
FRY RID FPL FE AY. 


令 err、err* 分 别 表示 最 近邻 分 类 器 与 贝 叶 斯 最 优 分 类 器 的 期 望 错误 
率 , 试 证 明 


err” < err < err” (2 — m x er ) (10.40) 


在 对 高 维 数据 降 维 之 前 应 先进 行 “ 中 心 化 ”, 和 常见 的 是 将 协 方差 矩阵 
XXT 转化 为 和 HHTX ,其 中 于 天 工 - 2117, 试 析 其 效果 . 


在 实践 中 , 协 方差 矩阵 XXI 的 特征 值 分 解 常 由 中 心 化 后 的 样本 矩阵 
X 的 奇异 值 分 解 代替 , 试 述 其 原因 . 


降 维 中 涉及 的 投影 矩阵 通常 要 求 是 正 交 的 . 试 述 正 交 、 非 正 交 投影 矩 
BEH PRE AY CR A. 


试 使 用 MATLAB FAY PCA 函数 对 Yale 人 脸 数 据 集 进行 降 维 , 并 观 
察 前 20 个 特征 同 量 所 对 应 的 图 像 . 


试 述 核 化 线性 降 维 与 流 形 和 学习 之 则 的 联系 及 优 缺 反 . 


k 近 仓 图 和 ee 近邻 图 存在 的 短路 和 汤 踏 问题 会 给 Isomap 造成 困扰 , 试 
设计 一 个 方法 缓解 访问 题 . 


试 设 计 一 个 方法 为 新 样本 找到 LLE 降 维 后 的 低 维 坐标 . 


试 述 如 何 确 保 度 量 学习 产 生 的 距离 能 满足 距离 度量 的 四 条 基本 性 质 . 
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小 故事 : 主 成 分 分 析 与 卡尔 .皮尔 各 

主 成 分 分 析 (PCA) 是 迄今 最 常用 的 降 维 方法 , 它 有 许 
多 名 字 , 例如 线性 代数 中 的 散 度 矩阵 奇异 值 分 解 (SVD) 
统计 学 中 的 因子 分 析 (factor analysis)、 信 号 处 理 中 的 离散 
Karhiinen-Loéve 变换 、 图 像 分 析 中 的 Hotelling 变换 、 文 
本 分 析 中 的 潜在 语义 分 析 (LSA). SLR FE PON ACFE IE 26 
分 解 (POD). ARF TH Ae Bw (EOF)、 和 结构 动 力学 中 的 经 验 模 分 析 
(EMA)、 心 理 测量 学 中 的 Schmidt-Mirsky 定理 等 . 

卡尔 + ARH (Karl Pearson, 1857—1936) 在 1901 年 发 明了 PCA. KAR 
是 一 位 罕见 的 百科 全 书 式 的 学 者 , 他 是 统计 学 冢 、 应 用 数学 家 、 哲 学 家 、 历 史 
学 家 、 民 俗 学 家 、 宗 教学 家 、 人 类 学 家 、 语 言 学 家 , 还 是 社会 活动 家 、 教 育 改 
BA. ER. 1879 年 他 从 剑桥 大 学 国王 学 院 数学 系 毕 业 , 此 后 到 德国 海德 堡 大 
学 、 柏 林 大 学 等 地 游学 , 涉 猫 广泛 . 1884 年 他 开始 在 伦敦 大 学 学 院 (University 
College London, 简称 UCL) 担任 应 用 数学 讲 席 教授 , 39 岁 时 成 为 英国 皇家 学 
会 会 士 . 他 在 1892 年 出 版 的 科学 哲学 经 典 名 著 《 科 学 的 规范 》, 为 爱 因 斯 坦 创 
立 相 对 论 提 供 了 局 发 . 皮尔 还 对 统计 学 作出 了 极为 重要 的 贡献 , 例如 他 提出 了 
相关 系数 、 标 准 差 、 卡 方 检验 、 矩 估计 等 , 并 为 假设 检验 理论 、 统 计 决 策 理 论 
竟 定 了 基础 , 被 葡 为 “统计 学 之 父 ”. 

皮尔 偿 开 展 统 计 学 研究 是 因 受 到 了 生物 学 家 F. Galton 和 W. Welton 的 影 

Galton TETAKAN, aby, 希望 使 进化 论 能 进行 定量 描述 和 分 析 . 1901 年 他 们 三 人 创立 了 著名 的 统计 

学 期 刊 Biometrika, H IE E E fa E ERKE. BARRY eS Egon 也 是 著名 
统计 学 家 , 是 著名 的 “ 奈 曼 -皮尔 各 定理 ”中 的 皮尔 于 ,他 子 承 父 业 出 任 UCL 
的 统计 学 教授 以 及 Biometrika 主编 , 后 来 担任 了 英国 皇家 统计 学 会 主席 . 


第 11 章 ”特征 选择 与 稀 玉 学习 


11.1 子 集 搜索 与 评价 


我 们 能 用 很 多 属性 描述 一 个 西瓜 , 例如 色泽 、 根 带 、 敲 声 、 纹 理 、 触 感 
等 , 但 有 经 验 的 人 往往 只 需 看 看 根 带 、 听 听 敲 声 就 知道 是 否 好 瓜 . 换言之 , 对 
一 个 学 习 任 务 来 说 , 给 定 属性 集 , 其 中 有 些 属性 可 能 很 关键 、 很 有 用 , 另 一 些 
属性 则 可 能 没什么 用 . 我 们 将 属性 称 为 “特征 ”(feature), 对 当前 学 习 任 务 有 
用 的 属性 称 为 “相关 特征 ”(relevant feature)、 没 什么 用 的 属性 称 为 “无 天 特 
征 ”(irrelevant feature). 从 给 定 的 特征 集合 中 选 撞 出 相关 特征 子 集 的 过 程 ,， 称 
为 “特征 选择 ”(feature selection). 

特征 选择 是 一 个 重要 的 “数据 预 处 理 ”(data preprocessing) 过 程 , 在 现实 
机 器 学 习 任 务 中 , 获得 数据 之 后 通常 先进 行 特征 选择 , 此 后 再 训练 学 习 器 . 那 
A, 为 什么 要 进行 特征 选择 呢 ? 

有 两 个 很 重要 的 原因 : 首先 , 我 们 在 现实 任务 中 经 常会 遇 到 维 数 灾 难 问题 ， 
这 是 由 于 属性 过 多 而 造成 的 , 若 能 从 中 选择 出 重要 的 特征 , 使 得 后 续 学 习 过 程 
仅 需 在 一 部 分 特征 上 构建 模型 , 则 维 数 灾难 问题 会 大 为 减轻 . 从 这 个 意义 上 说 ， 
特征 选择 与 第 10 佛 介绍 的 降 维 有 相似 的 动机 ; 事实 上 , 它们 是 处 理 高 维 数据 的 
两 大 主流 技术 . 第 二 个 原因 是 , 去 除 不 相关 特征 往往 会 降低 学 习 任 务 的 难度 , 这 
就 像 侦 探 破案 一 样 , 若 将 纷繁 复杂 的 因素 抽 丝 剥 昔 , 只 留 下 关键 因素 , 则 真相 往 
往 更 易 看 清 . 

需 注 意 的 是 , 特征 选择 过 程 必须 确保 不 丢失 重要 特征 , 否则 后 续 学 习 过 程 
会 因为 重要 信息 的 缺失 而 无 法 获得 好 的 性 能 . 给 定数 据 集 , 若 学 习 任 务 不 同 , 则 
相关 特征 很 可 能 不 同 , 因此 , 特征 选择 中 所 谓 的 “无 关 特 征 ” 是 指 与 当前 学 习 
任务 无 关 . ABER A “IURIE” (redundant feature), 它们 所 包含 的 信 
电能 从 其 他 特征 中 推 沪 出 来 . 例如 , 考虑 立方 体 对 象 , AP ARETE “RER” 
“REW”, 则 “请 面积 ”是 元 余 特 征 , 因为 它 能 从 “ 搬 面 长 ”与 “ 确 面 宽 ” 
得 到 . 元 余 特 征 在 很 多 时 候 不 起 作用 , 去 除 它 们 会 减轻 学 习 过 程 的 负担 . 但 有 
IS OG AS FSF TIE Se BEE AIR AF >) FESS ERE, 例如 若 学 习 目 标 是 估算 立方 体 的 体积 , 则 
“底面 积 ” 这 个 见 余 特征 的 存在 将 使 得 体积 的 估算 更 容易 ; 更 确切 地 说 , 若 某 
个 元 余 特 征 恰好 对 应 了 完成 学 习 任 务 所 需 的 “中 辐 概 念 ”, 则 该 元 余 特 征 是 有 
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亦 称 子 集 “生成 与 搜 
R”. 


假设 每 小 属性 有 小 可 
BMA, 则 V = vl4l, 这 可 能 
是 一 个 很 大 的 值 因此 实 
践 中 通常 是 从 于 集 搜索 过 
程 中 前 一 轮 属 性 子 集 的 评 
价值 出 发 来 进行 计算 . 


第 11 FHA Shit +> 


mA. 为 简化 讨论 , 本 章 暂 且 假 定数 据 中 不 涉及 元 余 特 征 , 并 且 假 定 初始 的 特征 
集合 包含 了 所 有 的 重要 信息 . 


欲 从 初始 的 特征 集合 中 选取 一 个 包含 了 所 有 重要 信息 的 特征 子 集 , BOA 
任何 领域 知识 作为 先 验 假设 , 那 束 只 好 授 历 所 有 可 能 的 子 集 了 ; 然而 这 在 计算 
上 却 是 不 可 行 的 , 因为 这 样 做 会 避 遇 组 合 烽 炸 , 特征 个 数 各 多 就 无 法 进行 . 可 行 
的 做 法 是 产生 一 个 “候选 子 集 ”, 评价 出 它 的 好 坏 , 基于 评价 结果 产生 下 一 个 
候选 子 集 , 再 对 其 进行 评价 ，…… 这 个 过 程 持续 进行 下 去 , 直至 无 法 找到 更 好 的 
候选 子 集 为 止 . 显然 , 这 里 涉及 两 个 关键 环节 : 如 何 根 据 评价 结果 获取 下 一 个 低 
选 特征 子 集 ?” 如 何 评价 候选 特征 子 集 的 好 坏 ? 


第 一 个 环节 是 “ 子 集 搜 索 ”(subset search) 问 题 . 给 定 特 征集 合 a, 
a2,...,@a}, 我 们 可 将 每 个 特征 看 作 一 个 候选 子 集 , 对 这 d 个 候选 单 特征 子 
集 进 行 评 价 , 假定 {ao} 最 优 , 于 是 将 {ao} 作为 第 一 轮 的 选 定 集 ; 然后 , 在 上 一 
轮 的 选 定 集中 加 入 一 个 特征 , 构成 包含 两 个 特征 的 候选 子 集 , 假定 在 这 4d 一 1 个 
候选 两 特征 子 集中 fae2,a4} 最 优 , 且 优 于 {a2}, 于 是 将 {a2,a4al 作为 本 轮 的 选 
E; …… 假 定 在 第 大 十 1 轮 时 , 最 优 的 候选 (KE+1) 特征 子 集 不 如 上 一 轮 的 选 
re Se, WS EAE eee Se, 并 将 上 一 轮 选 定 的 天 特征 集合 作为 特征 选择 结果 . 
这 样 逐 渐 增 加 相关 特征 的 策略 称 为 “前 同 ”(forward) 搜 索 . AWN, 行 我 们 从 
完整 的 特征 集合 开始 , 每 次 尝试 去 掉 一 个 无 关 特 征 , 这 样 逐渐 减少 特征 的 策略 
称 为 “后 同 ” (backward) 搜 索 . 还 可 将 前 问 与 后 同 搜 索 结 合 起 来 ， 每 一 轮 逐 渐 
增加 选 定 相关 特征 (这 些 特征 在 后 续 轮 中 将 确定 不 会 被 去 除 )、 同 时 减少 无 天 特 
征 , 这 样 的 策略 称 为 “ 双 回 ”(bidirectional) 搜 索 . 


显然 , FARA BUD A, ALA ETNA SS EAS Fe ERT, 例如 在 
第 三 轮 假定 选择 as 优 于 ag, 于 是 选 定 集 为 {faz,a4,a5}, 然而 在 第 四 轮 却 可 能 是 
{a2, AA, a6, ag} 比 所 有 的 {a2, a4, Q5, ai} 都 更 优 . 遗憾 的 是 ， 若 不 进行 穷 举 搜索 ， 
则 这 样 的 问题 无 法 避免. 


第 二 个 环节 是 “ 子 集 评价 ”(subset evaluation) 问 题 . 给 定数 据 集 D, 假 
定 万 中 第 站 类 样本 所 二 的 比例 为 pi (i = 1,2,...,|V|]). 为 便于 讨论 , 假定 样 
本 属性 均 为 高 艇 型 . 对 属性 子 集 A, 假定 根据 其 取 值 将 DD 分 成 了 VV 个 子 集 
{D1, D?,...,Dv}, 每 个 子 集中 的 样本 在 4 上 取 值 相同 , 于 是 我 们 可 计算 属性 
子 集 4 的 信息 增益 


Gain(A) = Ent(D) 一 >- a Ent( D”), (11.1) 


11.2 过 滤 式 选择 


套 见 ,4.2.1 节 ，. 


许多 “多样 性 度量 ”,， 
如 不 合 度 量 、 相 关系 数 等 ， 
稍 加 调整 即 可 用 于 特征 子 
集 评价 , 参见 8.5.2 节 ， 
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EHIE Ue 
|| 
Ent(D) = — X pr logs Pk , (11.2) 
k=1 
{a ASS m Gain(A) BK, 意味 看 特征 子 集 4 包含 的 有 助 于 分 类 的 信息 越 多 . F 
Fe, 对 每 个 候选 特征 子 集 , 我 们 可 基于 训练 数据 集 D 来 计算 其 信息 增益 , 以 此 
作为 评价 准则 . 

更 一 般 的 , 特征 子 集 A 实际 上 确定 了 对 数据 集 D 的 一 个 划分 , 每 个 划分 区 
域 对 应 着 4 上 的 一 个 取 值 , 而 样本 标记 信息 Y 则 对 应 着 对 D 的 真实 划分 , 通过 
估算 这 两 个 划分 的 差异 , 就 能 对 A 进行 评价 . 与 Y 对 应 的 划分 的 差异 越 小 , 则 
说 明 A 越 好 . 信息 炳 仅 是 判断 这 个 差异 的 一 种 途径 , 其 他 能 判断 两 个 划分 产 弄 
的 机 制 都 能 用 于 特征 子 集 评价 . 

将 特征 子 集 搜索 机 制 与 子 集 评价 机 制 相 结合 , 即 可 得 到 特征 选择 方法 . Bil 
如 将 前 问 搜索 与 信息 燃 相 结合 , 这 显然 与 决策 树 算 法 非常 相似 . 事实 上 , 决策 树 
可 用 于 特征 选择 , 树 结 点 的 划分 属性 所 组 成 的 集合 就 是 选择 出 的 特征 子 集 . 其 
他 的 特征 选择 方法 未 必 像 决策 树 特征 选择 这 么 明显 , 但 它们 在 本 质 上 都 是 显 式 
或 隐 式 地 结合 了 某 种 (或 多 种 ) 子 集 搜 索 机 制 和 子 集 评价 机 制 . 

常见 的 特征 选择 方法 大 致 可 分 为 三 类 : 过 滤 式 (filter)、 包 囊 式 (wrapper) 和 
fe A. xk (embedding). 


11.2 过 滤 式 选择 


过 滤 式 方法 先 对 数据 集 进行 特征 选择 , 然后 再 训练 学 习 嚣 , 特征 选择 过 程 
与 后 续 学 习 絮 无 关 . 这 相当 于 先 用 特征 选择 过 程 对 初始 特征 进行 “过 小 ”, 再 
用 过 小 后 的 特征 来 训练 模型 . 

Relief (Relevant Features) [Kira and Rendell, 1992] 是 一 种 洗 名 的 过 滤 式 
特征 选择 方法 , 该 方法 设计 了 一 个 “相关 统计 量 ” 来 度量 特征 的 重要 性 . 该 统 
计量 是 一 个 向 量 , 其 每 个 分 量 分 别 对 应 于 一 个 初始 特征 , 而 特征 子 集 的 重要 性 
则 是 由 子 集 中 每 个 特征 所 对 应 的 相关 统计 量 分 量 之 和 来 决定 . 于 是 , 最 终 只 需 
指定 一 个 较 值 r, 然后 选择 比 7 大 的 相关 统计 量 分 量 所 对 应 的 特征 即 可 ; 也 可 指 
定 欲 选取 的 特征 个 数 k, 然后 选择 相关 统计 量 分 量 最 大 的 上 个 特征 . 

显然 ，Relief 的 关键 是 如 何 确 定 相 关 统 计量 . 给 定 训练 集 {(H1, 1), 
(222, y2), --., (Em Ym)}, 对 每 个 示例 xi, Relief 先 在 a; 的 同类 样本 中 寻找 
其 最 近邻 zi ah, 称 为 “ 猜 中 近邻 ”(near-hit), 再 从 zi 的 异类 样本 中 寻找 其 最 
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Relief 中 相关 统计 量 的 
计算 已 隐 然 有 具有 距离 度量 
学 习 的 意味 . 距离 度量 学 
习 和 参见 10.6 节 ， 
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近邻 zi nm, PRN “JESE” (near-miss), 然后 , 相关 统计 量 对 应 于 属性 j 的 
67 = X —diff(x], x? h)? + diff (zi, £? am) » (11.3) 


其 中 ri 表示 样本 ze 在 属性 ; 上 的 取 值 , dif (s1, 22) 取决 于 属性 j 的 类 型 : 车 
属性 j 为 离散 型 , W ri = zi 时 di 企 (x2, 2?) = 0, 否则 为 1; 车 属性 j 为 连续 型 ， 
则 qif(za,zg) = |x} — 2} |, 注意 oh, s? 已 规范 化 到 [0,1] 区 间 . 

从 式 (11.3) 可 看 出 , 若 mi 与 其 猜 中 近邻 mi nn 在 属性 也 上 的 距离 小 于 mi 与 
其 猜 馈 近邻 inm WEERA, 则 说 明 属 性 7 对 区 分 同类 与 卉 类 样本 是 有 全 的 , 于 是 
增 大 属性 了 所 对 应 的 统计 量 分 量 ; 反之 , 若 zi 与 其 猜 中 近邻 zi nn 在 属性 7 上 的 
距离 大 于 zi 与 其 猜 错 近邻 £inm 的 距离 , 则 说 明 属 性 了 起 负面 作用 , 于 是 减 小 
属性 7 所 对 应 的 统计 量 分 量 . 最 后 , 对 基于 不 同样 本 得 到 的 估计 结果 进行 平均 ， 
就 得 到 各 属性 的 相关 统计 量 分 量 , 分 量 值 越 大 , 则 对 应 属性 的 分 类 能 力 就 越 强 . 

式 (11.3) 中 的 i 指出 了 用 于 平均 的 样本 下 标 . 实际 上 Relief 只 需 在 数据 集 的 
采样 上 而 不 必 在 整个 数据 集 上 估计 相关 统计 量 [Kira and Rendell, 1992]. 显然 ， 
Relief 的 时 间 开 销 随 采 样 次 数 以 及 原始 特征 数 线性 增长 , 因此 是 一 个 运行 效率 
很 高 的 过 滤 式 特征 选择 算法 . 

Relief 是 为 二 分 类 问题 设计 的 , 其 扩展 变 体 Relief-F [Kononenko, 1994] 能 
处 理 多 分 类 问题 . 假定 数据 集 D 中 的 样本 来 自 VY] TAA. 对 示例 zi, 若 它 属 
F k% (ke {1,2,...,|V|}, WW Relief-F 先 在 第 大 类 的 样本 中 寻找 r; 的 最 近 
邻 示例 Linh 并 将 其 作为 猜 中 近邻 , 然后 在 第 类 之 外 的 每 个 类 中 找到 一 个 mi 
的 最 近邻 示例 作为 猜 错 近 邻 , 记 为 wiinm (l= 1,2,...,|V|]; 1 Ak). 于 是 , 相关 
统计 量 对 应 于 属性 7 的 分 量 为 


õi = J -dif (af, zl yy)? + JO (pi x diffe), zoomn)2) ， (11.4) 
i 1 大 


其 中 pi 为 第 ! 类 样本 在 数据 集 忆 中 所 占 的 比例 . 


11.3 BAnik# 
与 过 滤 式 特征 选择 不 考虑 后 续 学 习 器 不 同 , 包 襄 式 特征 选择 直接 把 最 终 将 
要 使 用 的 学 习 器 的 性 能 作为 特征 子 集 的 评价 准则 . 换言之 , 包 襄 式 特征 选择 的 
目的 就 是 为 给 定 学 习 器 选择 最 有 利于 其 性 能 、“ 量 身 定做 ”的 特征 子 集 . 
一 般 而 言 , 由 于 包 衷 式 特 征 选 择 方法 直接 针对 给 定 学 习 器 进行 优化 , 因此 


11.3 BRAA 


拉 斯 维 加 斯 方法 和 蒙特 
卡 罗 方 法 是 两 外 以 著名 财 
城 名 字 命 名 的 随机 化 方法 ， 
两 者 的 主要 区 别 是 : HH 
时 间 限 制 , 则 拉 斯 维 加 斯 
方法 或 者 给 出 满足 要 求 的 
解 ， 或 者 不 给 出 解 ， 而 蒙 
特 卡 罗 方 法 一 定 会 给 出 解 ， 
虽然 给 出 的 解 未 必 满 足 要 
求 ; 车 无 时 间 限 制 , 则 两 者 
都 能 给 出 满足 要 求 的 解 . 


初始 化 . 


在 特征 子 集 4' 上 通过 
交叉 验证 估计 学 习 器 误差 ， 


Fit T HOR LAM) 
法 停止 . 
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从 最 终 学 习 器 性 能 来 看 , OE NAN EE FE LEE EEE Be, 但 另 一 方面 ， 
由 于 在 特征 选择 过 程 中 需 多 次 训 练 学 习 器 , A BE iE ae PE T a 

LVW (Las Vegas Wrapper) [Liu and Setiono, 1996] 是 一 个 典型 的 包 囊 式 
特征 选择 方法 . 它 在 拉 斯 维 加 斯 方法 (Las Vegas method) 框 架 下 使 用 随机 策略 
来 进行 子 集 搜索 , 并 以 最 终 分 类 器 的 误差 为 特征 子 集 评 价 准 则 . 算法 描述 如 
图 11.1 Pras. 


学 习 算 法 L; 
停止 条 件 控制 参数 工 . 


: while t+ 三 7 do 
: 随机 产生 特征 子 集 A’; 
d 一 4 


过 

1 

2 

3: 

4: + = 0; 
器 

6 

T 

8g E' = CrossValidation(£(D^)); 
9 


: if (E' < E)v ((E' = E) A (ď' < d)) then 
10: t = 0; 
ll: E = FE’; 
12: d = d; 
13: A* = A’ 
14: else 
15: t=i+l 


16: end if 
17: end while 


输出 : 特征 子 集 4* 
11.1 LVW 算法 描述 


图 11.1 算法 第 8 行 是 通过 在 数据 集 D E, 使 用 交叉 验证 法 来 估计 学 习 器 
的 误差 , 注意 这 个 误差 是 在 仅 考 虑 特征 子 集 A’! 时 得 到 的 , 即 特 征 子 集 A’ 上 
的 误差 , Sele Save ETE 4 上 的 误差 更 小 , 或 误差 相当 但 A! 中 包含 的 特征 
数 更 少 , 则 将 A! 保留 下 来 . 

需 注意 的 是 , 由 于 LVW 算法 中 特征 子 集 搜索 采用 了 随机 策略 , 而 每 次 特征 
子 集 评价 都 需 训 练 学 习 器 , 计算 开销 很 大 , 因此 算法 设置 了 停止 条 件 控 制 参数 
T. 然而 , 整个 LVW 算法 是 基于 拉 斯 维 加 斯 方法 框架 , 阁 初 始 特征 数 很 多 ( 即 
A RK) T REHA, 则 算法 可 能 运行 很 长 时 间 都 达 不 到 停止 条 件 . 换言之 ， 
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正则 化 泰 见 6.4 Y. 


W g J k M E A. 
Tikhonov 在 1943 年 发 表 
于 《苏联 科学 院 院 刊 》， 
因此 亦 称 “Tikhonov © 
ja” ”而 Lo JE M] 4¥, op AR 

“Tikhonov 正则 化 ” - 


直译 为 “最 小 绝对 收缩 
选择 算 子 ”,， 由 于 比较 撩 
口 ， 因此 一 般 直 接 称 LAS- 
SO. 


事实 上 , tt wji “4h 
AJR” (PP a w 的 非 
零 分 量 尽 可 能 少 ) 最 自然 
的 是 使 用 Lo 范 数 ,但 [Lo 
范 数 不 连续 , 难以 优化 求 
he, AHA ER Ly 范 数 来 
IEA. 


第 11 章 FHER Sm 


着 有 运行 时 间 限 制 , 则 有 可 能 给 不 出 解 . 


11.4 RARE SL EMH 
FEL US EAA he OE IE EPEAT Sg J a VI REE A H 
显 的 分 别 ; 与 此 不 同 , fee A RE EE PEE R SF IE WE PE PE AG HS is VI BRIE 
为 一 体 , 两 者 在 同一 个 优化 过 程 中 完成 , 即 在 学 习 嚣 训练 过 程 中 目 动 地 进行 了 
特征 选择 . 
给 定数 据 集 D= {(%1,y1), (aa, y2), rey Co Ue) t 其 中 T E Rd, Ye R. 我 
们 考虑 最 简单 的 线性 回归 模型 , 以 平方 误差 为 损失 函数 , 则 优化 目标 为 
min X (yi — w'r). (11.5) 
i=1 
当 样 本 特征 很 多 , 而 样本 数 相对 较 少 时 , 式 (11.5) 很 容易 陷入 过 拟 合 . 为 了 
绥 解 过 拟 合 问题 , 可 对 式 (11.5) 引入 正则 化 项 . 大 使 用 Lz 范 数 正则 化 , 则 有 
miny (yw — wTa,)? 二 Alaol . (11.6) 
i=1 
其 中 正则 化 参数 入 > 0. 式 (11.6) 称 为 “ 岭 回归 ” (ridge regression) [Tikhonov 
and Arsenin, 1977], 通过 引入 Le 沁 数 正则 化 , 确 能 显 间 降低 过 拟 合 的 风险 . 
那么 , 能 理 将 正则 化 项 中 的 Le eR A Lp, WANE? SAAN. A 
令 p= 二 1, WKH Li 范 数 , 则 有 


TTL 
min X (yi — wi ai)? + Allwlli . 


i=1 


(11.7) 


其 中 正则 化 参数 入 > 0. 式 (11.7) 称 为 LASSO (Least Absolute Shrinkage and 
Selection Operator) [Tibshirani, 1996]). 

Li 范 数 和 Le 范 数 正则 化 都 有 助 于 降低 过 拟 合 风险 , 但 前 着 还 会 市 来 一 个 
额外 的 好 处 : 它 比 后 者 更 易于 获得 “ 稀 朴 ”(sparse) 解 , 即 它 求 得 的 w 会 有 更 
少 的 非 零 分 量 . 

为 了 理解 这 一 点 , 我 们 来 看 一 个 直观 的 例子 : 假定 xw 仅 有 两 个 属性 , 于 是 
无 论 式 (11.6) 还 是 (11.7) 解 出 的 w 都 只 有 两 个 分 量 , 即 wi, az, 我们 将 其 作为 两 
个 坐标 轴 , 然后 在 图 中 绘制 出 式 (11.6) 与 (11.7) 的 第 一 项 的 “等 值 线 ”, 即 在 
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即 选 择 出 对 应 于 岂 之 非 
零 分 量 的 特征 ， 


Li FE BE 等 值 线 ce 


ae 


11.2 Ly EMH Lo 正则 化 更 易于 得 到 稀疏 解 


(wi, we) 空间 中 平方 误差 项 取 值 相同 的 点 的 连 线 , 再 分 别 绘制 出 Li UAE Lo 
范 数 的 等 值 线 , 即 在 (wi, we) 空间 中 Li 范 数 取 值 相同 的 点 的 连 线 , 以 及 Le 范 
数 取 值 相同 的 点 的 连 线 , 如 图 11.2 Pras. 式 (11.6) 与 (11.7) 的 解 要 在 平方 误差 项 
与 正则 化 项 之 间 折 中 , 即 出 现在 图 中 平方 误差 项 等 值 线 与 正则 化 项 等 值 线 相交 
Ab. 由 图 11.2 可 看 出 , 采用 Ly 泡 数 时 平方 误 舌 项 等 值 线 与 正则 化 项 等 值 线 的 
交点 常 出 现在 坐标 轴 上 , BU wi 或 w 为 0, 而 在 采用 Le 范 数 时 , 两 者 的 交点 常 
出 现在 某 个 象限 中 , 即 wi 或 we 均 非 0; 换言之 , 采用 Li WB Loe 范 数 更 易于 
PE Bl Fi AF. 

注意 到 w ARS i i SR a ee AY d MERE PIMA Dae w ASSESS 3p Bt 
的 特征 才 会 出 现在 最 终 模型 中 , 于 是 , 求解 Li 范 数 正则 化 的 结果 是 得 到 了 仅 采 
用 一 部 分 初始 特征 的 模型 ; 换言之 , 基于 Li 正则 化 的 学 习 方 法 就 是 一 种 肉 入 式 
特征 选择 方法 , 其 特征 选择 过 程 导 学 习 器 训练 过 程 融 为 一 体 , 同时 完成 . 

Ly 正则 化 问题 的 求解 可 使 用 近 羡 李 度 下 降 (Proximal Gradient Descent, 
ER PGD) [Combettes and Wajs, 2005]. 具体 来 说 , S V RAN ThA, 对 优 
化 目标 

min f(a) + Mzlli , (11.8) 


E f(x) WS, A Vf 满足 L-Lipschitz 条 件 , 即 存在 常数 L > 0 使 得 


[Væ — vf(z)|2 < Lll- el} (vr, x’), (11.9) 
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则 在 ac, 附近 可 将 fF (ac) 通过 二 阶 泰勒 展 式 近似 为 


a | | L 
f(a) = fær) + (VF (£k) © — Ek} + 5 lle — x,||? 
2 


L 1 Sa 
= — |æ — (2 一 EV/ (ex) ) + const, (11.10) 
2 L 2 


其 中 const 是 与 a ERREZ, (-,-) 表示 内 积 . 显然 , 式 (11.10) 的 最 小 值 在 如 下 
Tk+1l SRA: i 


于 是 , AME T REX f (ac) 进行 最 小 化 , WEE — 2b Bp REF EERE bs 
上 等 价 于 最 小 化 二 次 函数 f (ac). 将 这 个 思想 推广 到 式 (11.8), 则 能 类 似 地 得 到 
其 每 一 步 迭 代 应 为 


2 
+ Allaclla ， (11.12) 
2 


L 1 
Tk+1 = arg min 5 I 一 (æ 一 Vs (ex)) 
j | 


即 在 每 一 步 对 f(x) BEAT BARE PF BERETA RN SSS Ly 范 数 最 小 化 . 
对 于 式 (11.12), 可 先 计 算 z = wy, 一 EV fler), 然后 求解 


o L 
zh+1 = arg min 5 lle — z||3 + Allzli . (11.13) 
P i 


S rt 表示 zw 的 第 i 个 分 量 , 将 式 (11.13) 按 分 量 展开 可 看 出 , 其 中 不 存在 rtr? 
习题 11.8. (i j) RRM, a 的 各 分 量 互 不 影响 , 于 是 式 (11.13) 有 闭 式 解 


z—A/L, A/L<2'; 
Teri = $ 0, zi| < A/L ; (11.14) 
| zt + A/L, z<—A/L, 


其 中 a 与 z?* 分 别 是 zk+l 与 z 的 第 i 个 分 量 . 因此 , 通过 PGD 能 使 LASSO 
和 其 他 基于 Ly 范 数 最 小 化 的 方法 得 以 快速 求解 . 


11.5 Biker SSeS 


不 妨 把 数据 集 D 考虑 成 一 个 矩阵 , 其 每 行 对 应 于 一 个 样本 , 每 列 对 应 于 一 
个 特征 . 特征 选择 所 考虑 的 问题 是 特征 具有 “生疏 性 ”, 即 矩 阵 中 的 许多 列 与 
当前 学 习 任务 无 关 , 通过 特征 选择 去 除 这 些 列 , 则 学 习 器 训练 过 程 仅 需 在 较 小 
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11.5 稀 朴 表示 与 字典 学 习 


y 


模型 涉及 的 输入 因素 减 
了 ,模型 所 建立 的 “ 输 


入 -输出 ”关系 会 更 清晰 . 


这 里 为 了 用 汉语 来 举例 


说 明 , 我 们 回避 了 分 词 问 
题 , 仅 谈 论 汉字 . 


参见 6.3 节 和 12.4 节 . 


字典 亦 称 “ 码 书 ” 


(codebook). 


3” 


字典 学 习 亦 称 “ 码 书 学 


(codebook learning). 


的 矩阵 上 进行 , 学 习 任 务 的 难度 可 能 有 所 降低 , 涉及 的 计算 和 存储 开销 会 减少 ， 
学 得 模型 的 可 解释 性 也 会 提高 . 

现在 我 们 来 考虑 另 一 种 稀疏 性 : D 所 对 应 的 矩阵 中 存在 很 多 零 元 末 , 但 这 
些 雪 元 了 素 并 不 是 以 整 列 、 整 行 形式 存在 的 . 在 不 少 现实 应 用 中 我 们 会 遇 到 这 样 
的 情形 , 例如 在 文档 分 类 任务 中 , 通 音 将 每 个 文档 看 作 一 个 样本 , 每 个 字 ( 词 ) 作 
为 一 个 特征 , 字 ( 词 ) 在 文档 中 出 现 的 频率 或 次 数 作 为 特征 的 取 值 ; 换言之 , D 
所 对 应 的 矩阵 的 每 行 是 一 个 文档 , 每 列 是 一 个 字 ( 词 ), 行 、 列 交汇 处 就 是 某 
字 ( 词 ) 在 某 文 档 中 出 现 的 频率 或 次 数 . ABA, 这 个 和 矩阵 有 和 多少 列 昵 ? 以 汉语 为 
Pi, (RRF) FA 47035 TiS, 这 意味 看 该 矩阵 可 有 4 万 多 列 , 即便 仅 考 
E (MREMA) PNF, 该 矩阵 也 有 3500 列 . 然而 , 给 定 一 个 文档 ， 
相当 多 的 字 是 不 出 现在 这 个 文档 中 的 , 于 是 矩阵 的 每 一 行 都 有 大 量 的 零 元 际 ; 
对 不 同 的 文档 , ease Hh AY FE EE AS AG E]. 

HEERA OE) Pr it ETA TB SRY, 对 学 习 任 务 来 说 会 有 不 少 好 处 , 例如 
线性 文 持 癌 量 机 之 所 以 能 在 文本 数据 上 有 很 好 的 性 能 , 恰 是 由 于 文本 数据 在 使 
用 上 述 的 字 频 表示 后 具有 高 度 的 黎 牙 性 , 使 大 多 数 问 题 变 得 线性 可 分 . 同时 , 稀 
枉 样 本 并 不 会 造成 存储 上 的 巨大 负担 , 因为 稀 朴 算 阵 已 有 很 多 融 效 的 存储 方法 . 

MA, SA CARER DD 是 稠密 的 , 即 普通 非 黎 臣 数据 , 能 否 将 其 转化 为 

“Miwa” (sparse representation) 形式 ,从 而 享有 稀 朴 性 所 带 来 的 好 处 呢 ? 

需 注 意 的 是 , 我 们 所 希望 的 稀 玻 表示 是 “恰当 稀 臣 ”, 而 不 是 “过 度 称 茧 ”. 仍 
以 汉语 文档 为 例 , 基于 《现代 汉语 第 用 字 表 》 得 到 的 可 能 是 恰当 稀疏, 即 其 稀 
焉 性 足以 让 学 习 任 务 变 得 简单 可 行 ; 而 基于 《 康 申 字典 》 则 可 能 是 过 上 度 称 焉 ， 
与 前 者 相 比 , 也 许 并 未 给 笠 习 任务 市 来 更 多 的 好 处 . 

显然 , 在 一 般 的 学 习 任 务 中 (例如 图 像 分 类 ) 并 没有 《现代 汉语 常用 字 表 》 
可 用 , 我 们 需 学 习 出 这 样 一 个 “字典 ”. 为 普通 稠密 表达 的 样本 找到 合适 的 
字典 , 将 样本 转化 为 合适 的 稀疏 表示 形式 ,， 从 而 使 学 习 任 务 得 以 人 简化, 模型 
复 溢 度 得 以 降低 , WI PRA “Hae >)” (dictionary learning), JPR “Fi Git Zn 
14” (sparse coding). IXPSTSPRITAA ZEB, “AAAS” Ae 
WHE, i “Fr aS” M EM BOT EE AS ETT Pi STA A ORE. A Pea 
是 在 同一 个 优化 求解 过 程 中 完成 的 , 因此 下 面 我 们 不 做 进一步 区 分 , 笼统 地 称 

给 定数 据 集 {Zz1, 2X2,... Emh 字典 学 习 最 简单 的 形式 为 


TTL TTL 
pin) |æ; 一 Ba; ||5 十 入 > lola, (11.15) 
‘= 


t=1 
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其 中 B e RI”: 为 字典 矩阵, 大 称 为 字典 的 词汇 量 , 通常 由 用 户 指 定 , ai E R* 则 
是 样本 mi € R? 的 稀 朴 表示 . 显然 , 式 (11.15) 的 第 一 项 是 希望 由 oa; 能 很 好 地 重 
构 ci 第 二 项 则 是 希望 ai RP. 

与 LASSO 相 比 , 式 (11.15) 显 然 抹 烦 得 多 , 因为 除 丁 类似 于 式 (11.7) 中 ww 的 
ai 还 需 学 习 字 典 和 矩阵 B. 不 过 , 受 LASSO 的 启发 ,我 们 可 采用 变量 交替 优化 
的 策略 来 求解 式 (11.15). 

首先 在 第 一 步 , 我 们 固定 住 字 典 B, 若 将 式 (11.15) 按 分 量 展 开 , 可 看 出 其 中 
不 涉及 ata’ (u A v) 这 样 的 交叉 项 , 于 是 可 参照 LASSO 的 解法 求解 下 式 ， 从 
而 为 每 个 样本 oc; 找到 相应 的 œi: 


min ||æ; — Bay ||3 + Allel - (11.16) 


在 第 二 步 , 我 们 以 ai 为 初 值 来 更 新 字典 B, 此 时 可 将 式 (11.15) 写 为 
min |X — BA ||}, (11.17) 


HA X = (£1, £2,..., £m) E R?™, A = (a, Q2,..., Qm) E R**™, || - lr Æ 
矩阵 的 Frobenius 范 数 . 式 (11.17) 有 多 种 求解 方法 , w HA eT 
HJ KSVD [Aharon et al., 2006]. $ b; 表示 字典 矩阵 B 的 第 i 列 , at BEAN 
MIERE A WJ iT, 式 (11.17) 可 章 号 为 


2 
min IX — BA||% = min -Xe al 
F 
2 
= min ie 一 》 bj ~) = ie 
IF F 
= min |E; — beat ||7 . (11.18) 


在 更 新 字典 的 第 i 列 时 , 其 他 各 列 都 是 固定 的 , 因此 Ei = X 一 50, ba? 是 固 
mE RA), 于 是 最 小 化 式 (11.18) 原 则 上 只 需 对 E; 进行 奇异 值 分 解 以 取得 最 大 奇异 
值 所 对 应 的 正 交 向 量 . 然而 , 直接 对 B, 进行 奇异 值 分 解 会 同时 修改 b; 和 a’, 
从 而 可 能 破坏 AY Aa RE. 为 避免 发 生 这 种 情况 , KSVD 对 E; ul 进行 专门 
处 理 : ot 仅 保 留 非 零 元 素 , E; 则 仅 保 留 b; 与 at 的 非 零 元 素 的 乘积 项 , 然后 再 
进行 奇异 值 分解 , 这 样 就 保持 了 第 一 步 所 得 到 的 稀 玖 性 . 


11.6 压缩 感知 


亲 奎 斯 特 采 样 定理 提 供 
了 信号 恢复 的 充分 条 件 而 
非 必 要 条 人 忻 . 


Jr 称 compressive sens- 
ing. 


y 亦 称 “测量 值 ” . 


RE rY TEHA]. 
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Wea FLERE B 之 后 反复 迭代 上 述 两 步 , 最 终 即 可 求 得 字典 B 和 样本 
zi HALA AS oy. 在 上 述 字 典 学 习 过 程 中 , 用 户 能 通过 设置 词汇 量 k 的 大 小 来 
控制 字典 的 规模 , 从 而 影 啊 到 稀 玖 程度 . 


11.6 压缩 感知 


在 现实 任务 中 , 我 们 第 希 望 根据 部 分 信息 来 恢复 全 部 信息 . 例如 在 数据 通 
讯 中 要 将 模拟 信号 转换 为 数字 信号 , 根据 奈 硅 斯 特 (Nyquist) 采样 定理 , 令 采 
样 频率 达到 模拟 信号 最 高 频率 的 两 倍 , 则 采样 后 的 数字 信号 就 保留 了 模拟 信号 
的 全 部 信息 ; 换言之 , 由 此 获得 的 数字 信号 能 精确 重 构 原 模拟 信号 . 然而 , 为 了 
便于 传输 、 存 储 , 在 实践 中 人 们 通 音 对 和 采样 的 数字 信号 进行 压缩 , 这 有 可 能 损 
失 一 些 信 息 , 而 在 信号 传输 过 程 中 , 由 于 信道 出 现 去 包 等 问题 , 又 可 能 损失 部 
分 信息 . 那么 , 接收 方 基 于 收 到 的 信号 , 能 否 精 确 地 重 构 出 原 信号 呢 ? es Se 
ZI (compressed sensing) [Donoho, 2006; Candes et al., 2006] 为 解决 此 类 问题 提 
供 了 新 的 思路 . 

BEAKEN m 的 离散 信号 ao, 不妨 假定 我 们 以 远 小 于 杂 奎 斯 特 采 样 定理 
要 求 的 采样 率 进行 采样 , 得 到 长 度 为 的 采样 后 信号 y, n 之 m, 即 


y = Pr, (11.19) 


HEP BER” 是 对 信号 wo 的 测量 矩阵 , 它 确定 了 以 什么 频率 进行 采样 以 及 如 
何 将 采样 样本 组 成 采样 后 的 信号 . 

在 已 知 离散 信号 x 和 测量 矩阵 更 时 要 得 到 测量 值 y 很 容易 , 然而 , ARM 
量 值 和 测量 和 矩阵 传输 出 去 , 接收 方 能 还 原 出 原始 信号 吗 ? 

一 般 来 说 , BSH “No”, 这 是 由 于 n < m, 因此 y, x, 6 ARN 
式 (11.19) 是 一 个 欠 定 方程 , 无 法 轻易 求 出 数值 解 . 

现在 不 妨 假设 存在 某 个 线性 变换 p c Rom 使 得 zw 可 表示 为 Us, 于 是 vy 
可 表示 为 

y = PPs = As , (11.20) 

其 中 A = py e R"*™m. 于 是 , 知 能 根据 y 恢复 出 s, 则 可 通过 z = Ps 来 恢复 
出 信号 z. 

粗 看 起 来 式 (11.20) 没 有 解决 任何 问题 , 因为 式 (11.20) 中 恢复 信号 s 这 个 道 
问题 仍 是 欠 定 的 . 然而 有 趣 的 是 , A s BAPE, 则 这 个 问题 竟 能 很 好 地 得 
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以 解决 ! 这 是 因为 稀疏 性 使 得 未 知 因 素 的 影响 大 为 减少 . 此 时 式 (11.20) 中 的 Y 
PRA Mii’, 而 A 的 作用 则 类 似 于 字典 , 能 将 信号 转换 为 稀 朴 表示 . 

事实 上 , 在 很 多 应 用 中 均 可 获得 具有 稀 朴 性 的 s, 例如 图 像 或 声音 的 数 宇 信 
号 通常 在 时 域 上 不 具有 稀 玖 性 , 但 经 过 傅 里 时 变换 、 人 余弦 变换 、 小 流 变 换 等 处 
理 后 却 会 转化 为 频 域 上 的 稀 玖 信号 . 

WA, 与 特征 选择 、 稀 玲 表 示 不 同 , 压缩 感知 关注 的 是 如 何 利 用 信号 本 刁 
所 具有 的 稀 朴 性 , 从 部 分 观测 样本 中 恢复 原 信 号 . 通常 认为 , 压缩 感知 分 为 “ 感 
知 训 量 ” 和 “ 重 构 恢 复 ” 这 两 个 阶段 . “感知 训 量 ”关注 如 何 对 原始 信号 进行 
Ath FY IRIA PE ASR AS, 这 方面 的 内 容 涉 及 傅 里 时 变换 、 小 波 变 换 以 及 11.5 
人 介绍 的 字典 学 习 、 黎 朴 编 码 等 , 不 少 技术 在 压缩 感知 提出 之 前 就 已 在 信号 处 
理 等 领域 有 很 多 研究 ; “ 重 构 恢复 ”关注 的 是 如 何 基于 稀 朴 性 从 少量 观测 中 恢 
复原 信号 , 这 是 压缩 感知 的 精 舌 , 当 我 们 谈 到 压缩 感知 时 , 通常 是 指 该 部 分 . 

压缩 感知 的 相关 理论 比较 复杂 , 下面 仅 简要 介绍 一 下 “限定 等 距 性 ” 
(Restricted Isometry Property, 简称 RIP) [Candés, 2008]. 

对 大 小 为 nn xm (n € m) 的 矩阵 A, 在 存在 常数 处 © (0,1) 使 得 对 于 任意 
向 量 s 和 A Ara Peek A, E R” 有 


(一 5)llsll2 < lIAksll2 < (1 十 or)llsll2 ， (11.21) 


则 称 A 满足 大 限定 等 距 性 (k-RIP). 此 时 可 通过 下 面 的 优化 问题 近乎 完美 地 从 
y PRE HBM S s, 进而 恢复 出 x : 


min llsllo (11.22) 


s.t. y=As. 


然而 , 式 (11.22) 涉 及 Lo 范 数 最 小 化 , 这 是 个 NP 难 问题 . 值得 庆幸 的 是 , Ly 
范 数 最 小 化 在 一 定 条 件 下 与 Lo 范 数 最 小 化 问题 共 解 [Candes et al., 2006], 于 
是 实际 上 只 需 关 注 


min sla (11.23) 


s.t. y=As. 


这 样 , Hs 4a 0 fa) ae Ay ae Ly 函数 最 小 化 问题 求解 , 例如 式 (11.23) 可 转化 为 


11.6 压缩 感知 


这 是 一 个 典型 的 “协同 
iti” (collaborative filter- 
ing) 任务 . 


Dak “({RARFEPRIAR A” , 
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LASSO HEERE ag EP BRIS AE, 即使 用 “ 基 寻 足 去 品 ”(Basis 
Pursuit De-Noising) [Chen et al., 1998]. 

基于 部 分 信息 来 恢复 全 部 信息 的 技术 在 许多 现实 任务 中 有 重要 应 用 . 例 
如 网 上 书店 通过 收集 读者 在 网 上 对 书 的 评价 , 可 根据 读者 的 读书 偶 好 来 进行 新 
书 推荐 , 从 而 达到 定向 广告 投放 的 效果 . 显然 , 没有 哪 位 读者 读 过 所 有 的 书 , 也 
没有 哪 本 书 被 所 有 读者 读 过 , 因此 , 网 上 书店 所 搜集 到 的 仅 有 部 分 信息 . 例如 
4211.1 给 出 了 四 位 读者 的 网 上 评价 信息 , 这 里 评价 信息 经 过 处 理 , 形成 了 “可 
好 程度 ”评分 (5 分 最 局 ). 由 于 读者 仅 对 读 过 的 书 给 出 评价 , 因此 表 中 出 现 了 
很 多 未 知 项 “?”. 

R 11.1 客户 对 书 的 喜好 程度 评分 
(Rail) 《万 历 十 五 年 》 《人 间 词 话 》 《云海 玉 己 缘 》 《人 类 的 故事 》 


HK 5 ? ? 3 2 
钱 二 ? 5 3 ? 5 
孙 三 5 3 ? ? ? 
李 四 3 ? 5 4 


ABA, 能 否 将 表 11.1 中 通过 读者 评价 得 到 的 数据 当 作 部 分 信号 , 基于 压缩 
感知 的 思想 恢复 出 完整 信号 呢 ? 

我 们 知道 , 能 通过 压缩 感知 技术 恢复 欠 采 样 信 号 的 前 提 条 件 之 一 是 信号 
AMRI. 读书 喜好 数据 是 否 存 在 稀 下 表示 呢 ? 答案 是 肯定 的 . 一般 情形 
F, 读者 对 书籍 的 评价 取决 于 题材 、 作 者 、 汇 帧 等 多 种 因素 , 为 简化 讨论 , 假定 
K 11.1 中 的 读者 可 好 评分 仅 与 题 村 有关. (RALI) Al Caves SA) ER 
侠 小 说，《 万 历 十 五 年 》 和 《人 类 的 故事 》 是 历史 读物 ， 《人 间 词 话 》 属 于 证 
词 文学 . 一 般 来 说 , 相似 题材 的 书籍 会 有 相似 的 读者 , 知 能 将 书籍 按 题 材 归 类 ， 
则 题材 总 数 必然 远 远 少 于 书籍 总 数 , 因此 从 题材 的 角度 来 看 , 表 11.1 中 反映 出 
的 信号 应 该 是 稀疏 的 . 于 是 , 应 能 通过 类 似 压缩 感知 的 思想 加 以 处 理 . 

和 卸 阵 补 全 (matrix completion) 技术 [Candes and Recht, 2009] 可 用 于 解决 
这 个 问题 , 其 形式 为 


min rank(X) (11.24) 
st. (X)i; = (A), (7) ER, 


HEF, X ean RS iia Ss; rank(X) 表示 和 矩阵 K 的 秩 ; A 是 如 表 11.1 的 
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核 范 数 亦 称 “ 迹 范 数 ” 
(trace norm). 


SDP 参见 附录 B.3. 
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读者 评分 矩阵 这 样 的 已 观测 信号 ; 是 A 中 非 “?” 元 素 (A)i 的 下 标 (i,j) 的 
集合 . 式 (11.24) 的 约束 项 明确 指出 , 恢复 出 的 矩阵 中 (CX), 应 当 与 已 观测 到 的 
对 应 元 素 相 同 . 

与 式 (11.22) 相 似 , 式 (11.24) 也 是 一 个 NP 难 问题 . 注意 到 rank(X) 在 集合 
{X e R™™*": |[X|/Z < 1} 上 的 凸 包 是 和 的“ 核 范 数 ”(nuclear norm): 


min{m,n} 
IXll: = > oR), (11.25) 
j=1 
其 中 oj(X) 表示 X 的 奇异 值 , 即 和 矩阵 的 核 范 数 为 矩阵 的 奇异 值 之 和 , 于 是 可 通 
过 最 小 化 窍 阵 核 范 数 来 近似 求解 怀 (11.24)， 即 


] X ||» 11.2 
min |X] (11.26) 


s-t. (X)iy=(A)y, (7) ER. 


式 (11.26) 是 一 个 凸 优 化 问题 , 可 通过 半 正 定 规 划 (Semi-Definite Programming, 
MER SDP) 求解 . 理论 研究 表明 , 在 满足 一 定 条 件 时 , A WR Ar, n<m, Wl 
只 需 观 察 到 O(mr log* m) 个 元 素 就 能 完美 恢复 出 A [Recht, 2011]. 


11.7 阅读 材料 


特征 选择 是 机 器 和 学习 中 研究 最 早 的 分 文 领域 之 一 , 早期 研究 主要 是 按 特 
征 子 集 “ 生 成 与 搜索 -评价 ”过 程 进 行 . 在 子 集 生 成 与 搜索 方面 引入 了 很 多 
人 工 智 能 搜索 技术 , 如 分 支 限界 法 [Narendra and Fukunaga, 1977]、 浮 动 搜索 
法 [Pudil et al., 1994] 等 ; 在 子 集 评价 方面 则 采用 了 很 多 源 于 信息 论 的 准则 ， 
ofa RG. AIC (Akaike Information Criterion) [Akaike, 1974] 等 . [Blum and 
Langley, 1997] 对 子 集 评 价 和 准则 进行 了 讨论 , [Forman, 2003] 则 进行 了 很 多 实验 
比较 . 

早期 特征 选择 方法 主要 是 过 滤 式 的 , 包裹 式 方法 出 现 稍 晚 [Kohavi and 
John, 1997], RAT ATES SE _ E [Weston et al., 2003], 但 由 于 决策 树 算法 
在 构建 树 的 同时 也 可 看 作 进 行 了 特征 选择 , AE te A SOS tH AT 26 W 2) ID3 
[Quinlan, 1986]. 有 很 多 文献 对 特征 选择 方法 的 性 能 进行 了 实验 比较 [Yang 
and Pederson, 1997; Jain and Zongker, 1997]. 更 多 关于 特征 选择 的 内 容 可 参 
H] [Guyon and Elisseeff, 2003; Liu et al., 2010], 以 及 专门 关于 特征 选择 的 书籍 


11.7 阅读 材料 


直译 为 “最 小 角 回 归 ”， 
通常 直接 种 LARS. 


仍 以 汉语 文档 为 例 , 一 
个 概念 可 能 由 多 个 字 词 来 
表达 , 这 些 字 词 就 构成 了 
一 个 分 组 ; 若 这 个 概念 在 
文档 中 没有 出 现 , 则 这 整 
个 分 组 所 对 应 的 变量 都 将 
AR, 
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[Liu and Motoda, 1998, 2007]. 

LARS (Least Angle RegresSion) [Efron et al., 2004] 是 一 种 嵌入 式 特征 
选择 方法 , 它 基 于 线性 回归 平方 误差 最 小 化 , 每 次 选择 一 个 与 残 差 相关 性 最 
大 的 特征 ， LASSO [Tibshirani, 1996] 可 通过 对 LARS 稍 加 修改 而 实现 ， 在 
LASSO 基础 上 进一步 发 展 出 考 虚 特征 分 组 结构 的 Group LASSO [Yuan and 
Lin, 2006]、 考 虑 特征 序 结构 的 Fused LASSO [Tibshirani et al., 2005] 等 变 体 . 
由 于 上 同性 不 严格 , LASSO 类 方法 可 能 产生 多 个 解 , 该 问题 通过 弹性 网 (了 Elastic 
Net) 得 以 解决 [Zou and Hastie, 2005]. 

wy SH Be y -5 MLS AS [Aharon et al., 2006], 除了 通过 控制 字典 规模 从 
m RAE, 有 时 还 希望 控制 字典 的 “结构 ”, 例如 假设 字典 具有 “分 组 
结构 ”, 即 同一 个 分 组 内 的 变量 或 同 为 非 零 , 或 同 为 零 . 这 样 的 性 质 称 为 “分 
2H A ALPE” (group sparsity), 相应 的 稀 更 编码 方法 则 称 为 分 组 稀 聋 编 公 (group 
sparse coding) [Bengio et al., 2009]. 稀 歼 编 伺 和 分 组 稀 玖 编码 在 图 像 特 征 抽 取 
方面 有 很 多 应 用 , 可 参阅 [Mairal et al., 2008; Wang et al., 2010]. 

压缩 感知 [Donoho, 2006; Candés et al., 2006] 直接 众生 了 人 脸 识 别 的 
BERIA T [Candes et al., 2011] 和 基于 和 矩阵 补 全 的 协同 过 滤 [Recht 
et al., 2010]. [Baraniuk, 2007] 是 关于 压缩 感知 的 一 个 简短 介绍 . 将 Lo YU 
数 最 小 化 转化 为 Li 函数 最 小 化 后 ,第 用 求解 方法 除了 转化 为 LASSO 的 
BEF BR A ee, 还 可 使 用 基 寻 中 (Basis Pursuit) [Chen et al.，1998]、 匹 配 寻 
Er (Matching Pursuit )[Mallat and Zhang, 1993] =. [Liu and Ye, 2009] 使 
FA Be a V2: TRE SR fA AB J Ie ea, 并 提供 了 一 个 稀 玖 学 习 程 序 包 SLEP 
(http:/ /www.yelab.net /software/SLEP/). 
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西瓜 数据 集 3.0 JL p.84 
表 4.3. 


习题 
11.1 


11.2 


11.3 


11.4 


11.5 
11.6 
11.7 
11.8 
11.9 


11.10* 


第 11 FHER SMS > 


试 编程 实现 Relief 算法 , 并 考察 其 在 西瓜 数据 集 3.0 上 的 运行 结果 . 
试 写 出 Relief-F 的 算法 描述 . 


Relief 算法 是 分 别 考察 每 个 属性 的 重要 性 . 试 设计 一 个 能 考虑 每 一 对 
属性 重要 性 的 改进 算法 . 


试 为 LVW 设计 一 个 改进 算法 , 即便 有 运行 时 间 限 制 , 该 算法 也 一 定 能 
给 出 解 . 


结合 图 11.2, 试 举例 说 明 Li 正则 化 在 何 种 情形 下 不 能 产生 黎 芯 解 . 
TAT US E] VF Sp SF TF AL RAR 

试 述 直接 求解 Lo 范 数 正 则 化 会 遇 到 的 困难 . 

试 给 出 求解 Li 范 数 最 小 化 问题 中 的 财 陈 解 (11.14) 的 详细 推导 过 程 . 
试 述 字典 学 习 与 压 绚 感 知 对 稀 玖 性 利用 的 异同 . 

试 改 进 式 (11.15), 以 学 习 出 具有 分 组 稀疏 性 的 字典 . 


参考 文献 263 


参考 文献 


Aharon, M., M. Elad, and A. Bruckstein. (2006). “K-SVD: An algorithm for 
designing overcomplete dictionaries for sparse representation.” IEEE Trans- 
actions on Image Processing, 54(11):4311—4322. 

Akaike, H. (1974). “A new look at the statistical model identification.” IEEE 
Transactions on Automatic Control, 19(6):716—723. 

Baraniuk, R. G. (2007). “Compressive sensing.” IEEE Signal Processing Mag- 
azine, 24(4):118-121. 

Bengio, S., F. Pereira, Y. Singer, and D. Strelow. (2009). “Group sparse cod- 
ing.” In Advances in Neural Information Processing Systems 22 (NIPS) (Y. 
Bengio, D. Schuurmans, J. D. Lafferty, C. K. I. Williams, and A. Culotta, 
eds.), 82-89, MIT Press, Cambridge, MA. 

Blum, A. and P. Langley. (1997). “Selection of relevant features and examples 
in machine learning.” Artificial Intelligence, 97(1-2):245—271. 

Boyd, S. and L. Vandenberghe. (2004). Convex Optimization. Cambridge Uni- 
versity Press, Cambridge, UK. 

Candés, E. J. (2008). “The restricted isometry property and its implications for 
compressed sensing.” Comptes Rendus Mathematique, 346(9-10):589—592. 
Candeés, E. J., X. Li, Y. Ma, and J. Wright. (2011). “Robust principal compo- 

nent analysis?” Journal of the ACM, 58(3):Article 11. 

Candes, E. J. and B. Recht. (2009). “Exact matrix completion via convex op- 
timization.” Foundations of Computational Mathematics, 9(6):717—772. 

Candeés, E. J., J. Romberg, and T. Tao. (2006). “Robust uncertainty principles: 
Exact signal reconstruction from highly incomplete frequency information.” 
IEEE Transactions on Information Theory, 52(2):489—509. 

Chen, 5. S., D. L. Donoho, and M. A. Saunders. (1998). “Atomic decomposition 
by basis pursuit.” SIAM Journal on Scientific Computing, 20(1):33-61. 

Combettes, P. L. and V. R. Wajs. (2005). “Signal recovery by proximal forward- 
backward splitting.” Mutiscale Modeling & Simulation, 4(4):1168—1200. 

Donoho, D. L. (2006). “Compressed sensing.” IEEE Transactions on Informa- 
tion Theory, 52(4):1289—-1306. 


264 


第 11 章 特征 选择 与 稀 醇 学习 


Efron, B., T. Hastie, I. Johnstone, and R. Tibshirani. (2004). “Least angle 
regression.” Annals of Statistics, 32(2):407—499. 
Forman, G. (2003). “An extensive empirical study of feature selection metrics 


for text classification.” Journal of Machine Learning Research, 3:1289—-1305. 


Guyon, I. and A. Elisseeff. (2003). “An introduction to variable and feature 
selection.” Journal of Machine Learning Research, 3:1157—1182. 


Jain, A. and D. Zongker. (1997). “Feature selection: Evaluation, application, 
and small sample performance.” IEEE Transactions on Pattern Analysis 


and Machine Intelligence, 19(2):153-—158. 

Kira, K. and L. A. Rendell. (1992). “The feature selection problem: Tradi- 
tional methods and a new algorithm.” In Proceedings of the 10th National 
Conference on Artificial Intelligence (AAAI), 129-134, San Jose, CA. 

Kohavi, R. and G. H. John. (1997). “Wrappers for feature subset selection.” 
Artificial Intelligence, 97(1-2):273—324. 

Kononenko, I. (1994). “Estimating attributes: Analysis and extensions of RE- 
LIEF.” In Proceedings of the 7th European Conference on Machine Learning 
(ECML), 171-182, Catania, Italy. 

Liu, H. and H. Motoda. (1998). Feature Selection for Knowledge Discovery and 
Data Mining. Kluwer, Boston, MA. 

Liu, H. and H. Motoda. (2007). Computational Methods of Feature Selection. 
Chapman & Hall/CRC, Boca Raton, FL. 

Liu, H., H. Motoda, R. Setiono, and Z. Zhao. (2010). “Feature selection: An 
ever evolving frontier in data mining.” In Proceedings of the 4th Workshop 
on Feature Selection in Data Mining (FSDM), 4-13, Hyderabad, India. 

Liu, H. and R. Setiono. (1996). “Feature selection and classification — a prob- 
abilistic wrapper approach.” In Proceedings of the 9th International Con- 
ference on Industrial and Engineering Applications of Artificial Intelligence 
and Expert Systems (IEFA/AIE), 419-424, Fukuoka, Japan. 

Liu, J. and J. Ye. (2009). “Efficient Euclidean projections in linear time.” 
In Proceedings of the 26th International Conference on Machine Learning 


(ICML), 657-664, Montreal, Canada. 
Mairal, J., M. Elad, and G. Sapiro. (2008). “Sparse representation for color 


参考 文献 


265 


image restoration.” IEEE Transactions on Image Processing, 17(1):53-69. 

Mallat, S. G. and Z. F. Zhang. (1993). “Matching pursuits with time-frequency 
dictionaries.” IEEE Transactions on Signal Processing, 41(12):3397—3415. 

Narendra, P. M. and K. Fukunaga. (1977). “A branch and bound algorithm 
for feature subset selection.” IEEE Transactions on Computers, C-26(9): 
917-922. 

Pudil, P., J. Novoviéova, and J. Kittler. (1994). “Floating search methods in 
feature selection.” Pattern Recognition Letters, 15(11):1119—1125. 

Quinlan, J. R. (1986). “Induction of decision trees.” Machine Learning, 1(1): 
81-106. 

Recht, B. (2011). “A simpler approach to matrix completion.” Journal of 
Machine Learning Research, 12:3413—3430. 

Recht, B., M. Fazel, and P. Parrilo. (2010). “Guaranteed minimum-rank so- 
lutions of linear matrix equations via nuclear norm minimization.” STAM 
Review, 52(3):471—-501. 

Tibshirani, R. (1996). “Regression shrinkage and selection via the LASSO.” 
Journal of the Royal Statistical Society - Series B, 58(1):267—288. 

Tibshirani, R., M. Saunders, S. Rosset, J. Zhu, and K. Knight. (2005). “Spar- 
sity and smoothness via the fused LASSO.” Journal of the Royal Statistical 
Society - Series B, 67(1):91—-108. 

Tikhonov, A. N. and V. Y. Arsenin, eds. (1977). Solution of Ill-Posed Problems. 
Winston, Washington, DC. 


Wang, J., J. Yang, K. Yu, F. Lv, T. Huang, and Y. Gong. (2010). “Locality- 
constrained linear coding for image classification.” In Proceedings of the 
IEEE Computer Society Conference on Computer Vision and Pattern Recog- 
nition (CVPR), 3360-3367, San Francisco, CA. 

Weston, J., A. Elisseff, B. Scholkopf, and M. Tipping. (2003). “Use of the zero 
norm with linear models and kernel methods.” Journal of Machine Learning 
Research, 3:1439-1461. 

Yang, Y. and J. O. Pederson. (1997). “A comparative study on feature selection 


in text categorization.” In Proceedings of the 14th International Conference 
on Machine Learning (ICML), 412—420, Nashville, TN. 


266 


利 沃 夫 (Lviv) 在 历史 上 
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年 属于 奥 向 带 国 ， 第 一 
次 世界 大 战 后 回归 波兰 ， 
1939 年 划 入 前 苏联 的 岛 克 , 
兰 , 现 为 乌克兰 利 沃 夫 州 
首府 ， 

et FS fe # tz 
ie e Ah EiT 
Fi), 
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4x Metropolis-Hasting 算法 
是 以 他 的 名 字 命 名 的 . 
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小 故事 : 蒙特 卡 罗 方 法 与 斯 坦 尼 斯 拉夫 。 乌 拉 姆 

斯 坦 尼 斯 拉夫 。 乌 拉 姆 (Stanislaw Ulam, 1909—1984) 
是 著名 的 波兰 犹太 裔 数学 家 , 在 遍历 论 、 数 论 、 集 合 论 等 方 
面 都 有 重要 贡献 ，“ 乌 拉 姆 数列 ”就 是 以 他 的 名 字 命 名 的 . 

乌拉 姆 出 生 于 奥 匈 帝国 利 沃 夫 , 1933 年 在 波兰 利 沃 夫 
理工 学 院 获 得 数学 博士 学 位 , 然后 于 1935 Fe eH Se 
的 邀请 到 普林斯顿 高 等 研究 院 访 问 , 1940 年 他 在 威斯康星 大 学 麦迪 还 分 校 获 得 
教 职 , 翌年 加 入 美国 籍 . 1943 年 起 他 参与 “曼哈顿 计划 ”并 做 出 重大 贡献 ; 当 
前 世界 上 绝 大 部 分 核武 器 所 使 用 的 设计 方案 “泰勒 -乌拉 姆 方案 ”就 是 以 他 和 和 

“ 氧 弹 之 父 ” 爱 德 华 。 泰勒 的 名 字 命 名 的 . 

世界 上 最 早 的 通用 电子 计算 机 之 一 一 一 ENIAC 在 发 明 后 即 被 用 于 曼 哈 
顿 计划 , 乌拉 姆 敏锐 地 意识 到 在 计算 机 的 帮助 下 , 可 通过 重复 数 百 次 模拟 过 程 
的 方式 来 对 概率 变量 进行 统计 估计 . 冯 。 诺 伊 曼 立即 认识 到 这 个 想法 的 重要 
性 并 给 予 支 持 . 1947 年 乌拉 姆 提出 这 种 统计 方法 并 用 于 计算 核 裂 变 的 连锁 反 
应 . 由 于 乌拉 姆 常 说 他 的 叔叔 又 在 蒙特 卡 罗 赌 场 输 钱 了 , 因此 他 的 同事 Nicolas 
Metropolis 戏称 该 方法 为 “蒙特 卡 罗 ”, 不 料 却 流传 开 去 . 
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12.1 基础 知识 


顾名思义 , 计算 学 习 理 论 (computational learning theory) 研 究 的 是 关于 通 
过 “计算 ”来 进行 “学 习 ” 的 理论 , 即 天 于 机 器 学 习 的 理论 基础 , 其 目的 是 分 
Nt >) FES A A EAS a, 为 学 习 算法 提供 理论 保证 , 并 根据 分 析 结 果 指 守 算 法 
wor. 

给 定 样 例 集 D = {(x1,y1), (@2,42),---,(@m,Ym)}, xi E X, 本章 主要 讨论 
二 分 类 问题 , AACHEN VLA, y; € V = {-1,4+1}. 假设 之 中 的 所 有 样本 服从 一 
个 隐 含 未 知 的 分 布 D, D 中 所 有 样本 都 是 独立 地 从 这 个 分 布 上 采样 而 得 , 即 独 
并 同 分 布 (independent and identically distributed, 简称 ii.q.) FEA. 


SRAM & BY A-SI, 其 泛 化 误差 为 


Bs D= Pa hAg (12.1) 
hE D 上 的 经 验 误 差 为 
B(h; D) = — D> 1(h(wi) # ui) . (12.2) 
=] 


由 于 万 是 了 的 独立 同 分 布 采样 , 因此 户 的 经 验 误 差 的 期 望 等 于 其 泛 化 误 
差 . 在 上 下 文明 确 时 , 我 们 将 E(h;D) 和 Elh, D) 分 别 简 记 为 Elh) 和 Elh). > 
E 为 E(h) WER, 即 EB(h) <e 我 们 通常 用 e 表示 预先 设 定 的 学 得 模型 所 应 满 
足 的 误差 要 求 , 亦 称 “误差 参数 ”. 

本 章 后 面部 分 将 研究 经 验 误 差 与 汉 化 误差 之 间 的 逼近 程度 . AP h 在 数据 集 
D 上 的 经 验 误 差 为 0, 则 称 疡 与 万 一 致 , 否则 称 其 与 DD 不一致 . 对 任意 两 个 映 
HYF hi, ha E€ X 一 了 可 通过 其 “不 合 ”(disagreement) 来 度量 它们 之 间 的 差别 : 


d(hı, ha) = Ps~p(hi (ax) = ho(a)) š (12.3) 


我 们 会 用 到 几 个 常用 不 等 式 : 
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e Jensen 不 等 式 : WHER f(x), 有 
f(E(x)) < E(f(z)) . (12.4) 


e Hoeffding 不 等 式 [Hoeffding, 1963]: Æ £1, £2,..., Zm 为 m 个 独立 随机 变 
量 , HÆ 0 < z; <1, 则 对 任意 e> 0, 有 


1 TTL 1 ™. | | | A 
P (2 Sou 一 pe 2_ F(a) > e) < exp(—2me?) , (12.5) 


¿=l 
K ( 


上 L 
— Dt — =D Ela) 
a= 1 =] 


e McDiarmid 不 等 式 [McDiarmid, 1989]: Æ £1, £2, ..-, Im 为 m 个 独立 随 
机 变量 , 且 对 任意 1 <i <m, 函数 三 满足 


> e) < 2exp(—2me?) . (12.6) 


sup Fizi <a 4 ee) = Fg - eto ei, - , Em )| SG, 
D1 ye Ve 


则 对 任意 e > 0, 有 


—Ie? 
P (f (@1 am 一 下 (fr tm) >) Sep (a) ， 027) 
POF (Ei astm) — E Cf (Tiam 2 | 2exp (=) . (12.8) 


12.2 PAC 学 习 


计算 学 习 理 论 中 最 基本 的 是 概率 近似 正确 (Probably Approximately 
Correct, 简称 PAC) 学 习 理 论 [Valiant, 1984]. “概率 近似 正确 ”这 个 名 字 
看 起 来 有 点 古怪 , 我 们 稍 后 再 解释 . 
S cR “WZ” (concept), 这 是 从 样本 空间 到 标记 空间 的 映射 , 它 
决定 示例 a 的 真实 标记 y, OCT RE (x,y) 有 c(z) = y L, WERK c 为 目 
标 概 念 ; 所 有 我 们 希望 学 得 的 目标 概念 所 构成 的 集合 称 为 “概念 类 ” (concept 
class), 用 符号 C 表示 . 
给 定 学 习 算 法 £,， 它 所 考虑 的 所 有 可 能 概念 的 集合 称 为 “假设 空 
字 习 站 法 全 的 假设 空间 ay)” (hypothesis space), 用 符号 H 表示.， 由 于 学 习 算 法 事先 并 不 知道 概念 


不 是 1.3 节 所 讨论 的 学 习 / l , | : B 
任务 本 身 对 应 的 假设 空间 ， 类 的 真实 存在 , 因此 H AIC 通常 是 不 同 的 , 学 习 算 法 会 把 自 认 为 可 能 的 目标 概 


12.2  PAC 学 习 


参见 1.4 节 . 


一 般 来 说 , Dil HAE i AR 


样 例 数目 m 与 误差 e、 
置信 度 6、 数据 本 身 的 复 
Ae fe size(a). H 标 概 念 的 
复杂 度 size(c) HAH X. 
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念 集中 起 来 构成 戏 , 对 h e H, 由 于 并 不 能 确定 它 是 否 真 是 目标 概念 , 因此 称 为 
“假设 ”(hypothesis). 显然 , 假设 hh 也 是 从 样本 空间 X 到 标记 空间 y 的 映射 . 
E HERES cE H, WH 中 存在 假设 能 将 所 有 示例 按 与 真实 标记 一 致 的 方 
式 完 全 分 开 , 我 们 称 该 问题 对 学 习 算 法 e E “oah” (separable), 站 称 “ 一 
SUH” (consistent); 在 cc 和 区 戏 , 则 天 中 不 存在 任何 假设 能 将 所 有 示例 完全 正 
确 分 开 , 称 该 问题 对 学 习 算 法 2 是 “不 可 分 的 ”(non-separable), 让 称 “不 一 
SLAY” (non-consistent). 
给 定 训练 集 D, 我 们 希望 基于 学 习 算 法 4 学 得 的 模型 所 对 应 的 假设 疡 尽 可 
能 接近 目标 概念 c. 读者 可 能 会 问 : 为 什么 不 是 希望 精确 地 学 到 目标 概念 c WE? 
这 是 由 于 机 器 学 习 过 程 受 到 很 多 因素 的 制约 , 例如 我 们 获得 的 训练 集 D 往往 仪 
包含 有 限 数 量 的 样 例 , 因此 , 通常 会 存在 一 些 在 D 上 “等 效 ” 的 假设 , a 
法 对 它们 无 法 区 别 ; Fon, 从 分 布 D 采样 得 到 D 的 过 程 有 一 定 偶然 性 , 可 以 想 
Z, 即便 对 同样 大 小 的 不 同 训练 集 , 学 得 结果 也 可 能 有 所 不 同 . 因此 , 我 们 是 希 
望 以 比较 大 的 把 握 学 得 比较 好 的 模型 , 也 就 是 说 , 以 较 大 的 概率 学 得 误差 满足 
预 设 上 限 的 模型 ; 这 就 是 “概率 ”“ 近 似 正确 ”的 含义 . 形式 化 地 说 , 令 5 表示 
置信 和 度 , 可 定义 : 


定义 12.1 PAC 辨识 (PAC Identify): 对 0 一 eg 二 1 所 有 ceEeC 和 分 布 
D, 若 存 在 学 习 算 法 L, 其 输出 假设 he 天 满足 
P(E(h) < el>1-56, (12.9) 
则 称 学 习 算 法 2 能 从 假设 空间 H P PAC 辨识 概念 类 C. 
这 样 的 学 习 算 法 L 能 以 较 大 的 概率 (至 少 1 -0) 学 得 目标 概念 c 的 近似 
(误差 最 多 为 €). 在 此 基础 上 可 定义 : 


定义 12.2 PAC 可 学 习 (PAC Learnable): $ m 表示 从 分 布 D 中 独立 同 
分 布 采样 得 到 的 样 例 数 目 , 0 < €, å <1, 对 所 有 分 布 卫 , 在 人 存在 尝 习 算法 上 和 多 
Til sk PAA poly(-,-,-,-), 使 得 对 于 任何 m > poly(1/e, 1/6, size(a), size(c)), 全 能 
从 假设 空间 Kw 中 PAC 辨识 概念 类 CC, 则 称 概 念 类 C 对 假设 空 则 ZK 而 言 是 PAC 
可 学 习 的 , 有 时 也 简称 概念 类 C 是 PAC 可 学 习 的 . 


对 计算 机 算法 来 说 , 必然 要 考虑 时 间 复 杂 度 , TE: 
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定义 12.3 PAC 学 习 算 法 (PAC Learning Algorithm): 若 学 习 算 法 使 
概念 类 C 为 PAC HW, Af 的 运行 时 间 也 是 多 项 式 函 数 poly(1/e, 1/6, 
size(a), size(c)), 则 称 概念 类 C 是 而 效 PAC 可 学 习 (efficiently PAC learnable) 
的 , PRL 为 概念 类 C 的 PAC 学 习 算 法 . 


假定 学 习 算 法 L 处 理 每 个 样本 的 时 间 为 常数 , 则 2 的 时 间 复 杂 度 等 价 于 样 
AS SZ ASE. 于 是 , 我 们 对 算法 时 间 复 从 度 的 关心 就 转化 为 对 样本 复杂 度 的 关心 : 


定义 12.4 样本 复杂 度 (Sample Complexity): 满足 PAC = J Fyk £ PT 
WHJ m > poly(1/e, 1/6, size(ax), size(c)) 中 最 小 的 m, 称 为 学 习 算 法 L 的 样本 


显然 , PAC 学 习 给 出 了 一 个 抽象 地 刻画 机 器 学 习 能 力 的 框架 , 基于 这 个 框 
架 能 对 很 多 重要 问题 进行 理论 探讨 , 例如 研究 某 任 务 在 什么 样 的 条 件 下 可 学 得 
较 好 的 模型 ? 某 算法 在 什么 样 的 条 件 下 可 进行 有 效 的 学 习 ? 需 多 少 训练 样 例 才 
能 获得 较 好 的 模型 ? 

PAC 学 习 中 一 个 关键 因素 是 假设 空间 H 的 复杂 度 . XK 包含 了 学 习 算 法 L 
所 有 可 能 输出 的 假设 , 看 在 PAC 学 习 中 假设 空间 与 概念 类 完全 相同 , BUH = C, 
这 称 为 “ 恰 PAC 可 学 习 ” (properly PAC learnable); 直观 地 看 , 这 意味 着 和 学习 
算法 的 能 力 与 学 习 任 务 “ 恰 好 匹配 ”. AAT, 这 种 让 所 有 候选 假设 都 来 日 概念 
ARN SK AWG HE, 但 却 并 不 实际 , 因为 在 现实 应 用 中 我 们 对 概念 类 C 通 负 一 
无 所 知 , 更 别 说 获得 一 个 假设 空间 与 概念 类 恰好 相同 的 和 学习 算法 . 显然 , 更 重要 
的 是 研究 假设 空间 与 概念 类 不 同 的 情形 , 即 HAC. 一 般 而 言 , HRK, 其 包含 
任意 目标 概念 的 可 能 性 越 大 , 但 从 中 找到 某 个 具体 目标 概念 的 难度 也 越 大 . H| 
有 限时 , 我 们 称 HOA “A BR ER ee)”, 否则 称 为 “无 限 假设 空间 ”. 


12.3 有 限 假 设 空间 
12.3.1 可 分 情形 

可 分 情形 意味 着 目标 概念 c 属于 假设 空间 H, 即 c € H. BHAA m 个 样 
例 的 训练 集 D, 如 何 找 出 满足 误差 参数 的 假设 呢 ? 

容易 想到 一 种 简单 的 学 习 策 略 : 既然 D 中 样 例 标 记 都 是 由 目标 概念 c 赋予 
的 , 并 且 c 存在 于 假设 空间 H P, 那么 , 任何 在 训练 集 D 上 出 现 标 记 错 误 的 假 
设 表 定 不 是 目标 概念 c. 于 是 , 我 们 只 需 保留 与 DD 一致 的 假设 , 剔除 与 DD 不 一 
致 的 假设 即 可 . 着 训练 集 D 足够 大 , 则 可 不 断 借 助 D 中 的 样 例 剔除 不 一 致 的 假 


12.3 
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w, 直到 H POE FMR Aik, 这 个 假设 就 是 目标 概念 c. 通常 情形 下 , 由 
于 训练 集 规模 有 限 , 假设 空间 X 中 可 能 存在 不 止 一 个 与 DD 一 致 的 “等 效 ” 假 
BE, 对 这 些 等 效 假设 , 无 法 根据 D 来 对 它们 的 优 劣 做 进一步 区 分 . 

到 底 需 多 少 样 例 才 能 学 得 目标 概念 c 的 有 效 近似 昵 ? 对 PAC 学 习 来 说 , 只 
要 训练 集 D 的 规模 能 使 学 习 算法 & 以 概率 1 -5 找到 目标 假设 的 e 近似 即 可 . 

我 们 先 估计 泛 化 误差 大 于 e 但 在 训练 集 上 仍 表现 完美 的 假设 出 现 的 概率 . 
假定 h 的 泛 化 误差 大 于 e, 对 分 布 D 上 随机 采样 而 得 的 任何 样 例 (æ, y), 有 

P(h(w) = y) =1— P(h(w) # y) 
=1— E(h) 


<l-e. (12.10) 


由 于 万 包含 到 个 从 歼 独 立 同 分 布 采 样 而 得 的 样 例 , 因此 ,hh 与 DD 表现 一 


< (1 一 6 (12.11) 


我 们 事先 并 不 知道 学 习 算 法 £ 会 输出 HP ME, 但 仅 需 保证 泛 化 
误差 大 于 e, 且 在 训练 集 上 表现 完美 的 所 有 假设 出 现 概 率 之 和 不 大 于 5 即 可 : 


P(hEH: E(h) > e^ E(h) =0) < |H|\(1—6)™ 


< |Hle~™ , (12.12) 
令 式 (12.12) 不 大 于 ô, EH 
和 le ™ <6, (12.13) 
可 得 
m > ~ (in || + In z). (12.14) 


由 此 可 知 , 有 限 假 设 空间 X 都 是 PAC 可 学 习 的 , 所 需 的 样 例 数目 如 
式 (12.14) 所 示 , 输出 假设 h 的 泛 化 误差 随 样 例 数目 的 增多 而 收敛 到 0, 收敛 速 
率 为 O(4). 
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12.3.2 不 可 分 情形 

对 较为 困难 的 竺 习 问 题 , 目标 概念 c 往往 不 存在 于 假设 空间 H P. 假定 对 
于 任何 h eH, E(h) A 0, 也 就 是 说 , H 中 的 任意 一 个 假设 都 会 在 训练 集 上 出 现 
或 多 或 少 的 错误 . 由 Hoeffding 不 等 式 易 知 : 


引 理 12.1 EURA DAG m TAMA D 上 独立 同 分布 采 样 而 得 的 样 
例 , 0 <=e 二 1, 则 对 任意 h EH, A 


P(E(h) — E(h) > €) < exp(—2me?) , (12.15) 
P(E(h) 一 E(h) > e) < exp(—2me?’) , (12.16) 
P(|E(h) — B(h)| > €) < 2exp(—2me?) . (12.17) 


推论 12.1 AVIA DAE m TMA D EAko IA) oD 4 REF Tt EE FF 
Bil,O<e< 1, WX h EH, 式 (12.18) 以 至 少 1 一 6 的 概率 成 YY: 


E(h) 一 y= < E(h) < B(h) + mele . (12.18) 


推论 12.1 表 明 , 样 例 数 目 m 较 大 时 ,六 的 经 验 误差 是 其 记 化 误差 很 好 的 近 
似 . 对 于 有 限 假设 空间 H, 我 们 有 


定理 12.1 若 戏 为 有 限 假设 空间 ,0 < 6 <=1, 则 对 任意 he XH, 有 


P(|E(h) — E(h)| < y= ea > (12.19) 


证 明 $ hi, ha,..., hp 表示 假设 空间 H 中 的 假设 , 有 


P(3h € H: |E(h) — E(h)| > €) 
=P( (|En — Êm | > €) V... V (En — Enis! > ©)) 


< X P(|E(h) — E(h)| >) , 


hEH 


Hy st (12.17) A 7g 


>》 P(|E(h) — E(h)| > €) < 2/H| exp(—2me?) , 
hen 
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即 在 3 的 所 有 假设 中 找 
出 最 好 的 一 个 . 
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TÆ, > ô = 2|H| exp(—2me?) 即 可 得 式 (12.19). 图 


显然 , 当 cg 戏 时 ,学习 算 法 上 无 法 学 得 目标 概念 c 的 e 近 似 . 但 是 , 当 
假设 空间 H 给 定时 , 其 中 必 存 在 一 个 泛 化 误差 最 小 的 假设 , 找 出 此 假设 的 * 
近似 也 不 失 为 一 个 较 好 的 目标 . H 中 汉化 误差 最 小 的 假设 是 arg minpen E(h), 
于 是 , 以 此 为 目标 可 将 PAC UE Zl ce é KX 的 情况 , 这 称 为 “不 可 知 学 
>J” (agnostic learning). 相应 的 , 我 们 有 


定义 12.5 不 可 知 PAC hj “> (agnostic PAC learnable): $ m 表 

示 从 分 布 力 中 独立 同 分布 采 样 得 到 的 样 例 数 目 , 0 < el 6 < 1， 对 所 

有 分 布 D, FETE FS HIE L A g IH Kh PR BW poly(.,-,-,-), 使 得 对 于 任何 

m > poly(1/e, 1/6, size(a), size(c)), 全 能 从 假设 空间 H Hh AE (12.20) AY 
假设 h: 

P(E(h) 一 min E(h') <e) 21-6, (12.20) 


WU BK Ee Be Ae H 是 不 可 知 PAC BJ S22] HY. 


与 PAC 可 学 习 类 似 ， 若 学 习 算 法 L Wei WN lA) th eS I A 
poly(1/e,1/6, size(a),size(c)), YW PRR ix © HAE ey KAN AY FM PAC 可 和 学习 
的 , 学 习 算 法 © 则 称 为 假设 空间 H 的 不 可 知 PAC 学 习 算 法 , 满足 上 述 要 求 的 
最 小 m 称 为 学 习 算 法 L 的 样本 复杂 度 . 


12.4 VC 维 


现实 学 习 任 务 所 面临 的 通常 是 无 限 假设 空间 , 例如 实数 域 中 的 所 有 区 
W. RE 空间 中 的 所 有 线性 超 平面 ， 欲 对 此 种 情形 的 可 学 习性 进行 研究 , 需 
度量 假设 空间 的 复杂 度 . 最 常见 的 办 法 是 考虑 假设 空间 的 “VC 维 ” (Vapnik- 
Chervonenkis dimension) [Vapnik and Chervonenkis, 1971]. 

介绍 VC 维 之 前 , 我 们 先 引 入 几 个 概念 : 增长 函数 (growth function), X} 
分 (dichotomy) FF] aX (shattering). 

给 定 假设 空间 HAAN BSE D = {a01,@2,...,&m}, H 中 每 个 假设 hh 部 能 对 
D 中 示例 赋予 标记 , 标记 结果 可 表示 为 
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tlto, 对 二 分 类 问题 = 
万 中 只 有 2 个 示例 , RH 
予 标记 的 可 能 结果 只 有 4 
种 ; 若 有 3 个 示例 , 则 可 能 
25 RAB 种 . 

N 为 自然 数 域 . 


证 明 过 程 参 阅 [Vapnik 
and Chervonenkis, 1971]. 


每 个 假设 会 把 万 中 示例 
分 为 两 类 , 因此 种 为 对 分 . 
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BAAS m 的 增 大 , XK 中 所 有 假设 对 D 中 的 示例 所 能 赋予 标记 的 可 能 结果 数 
也 会 增 大 . 


定义 12.6 MATA m eN, 假设 空间 H 的 增长 函数 IIx(m) 为 


Hy(m) = max, yl{ (h(@1),---,h(@m)) | h € H}| (12.21) 


增长 函数 Inm) 表示 假设 空间 H X m 个 示例 所 能 赋予 标记 的 最 大 可 能 
结果 数 . 显然 , H 对 示例 所 能 赋予 标记 的 可 能 结果 数 越 大 , H 的 表示 能 力 越 强 ， 
对 学习 任务 的 适应 能 力也 越 强 . 因此 , 增长 函数 搓 述 了 假设 空间 的 表示 能 力 ， 
由 此 反映 出 假设 空间 的 复习 上 度 . 我 们 可 利用 增长 函数 来 估计 经 验 误 差 与 汉化 误 
差 之 间 的 关系 : 


定理 12.2 ”对 假设 空间 戏 ,me 0< e< 1PH h EHE 


2 
mE 
) 


P(|E(h) — B(h)| > €) < 4n (2m) exp ( - “5 


(12.22) 


假设 空间 H PARREREN F D 中 示例 赋予 标记 的 结果 可 能 相同 , 也 可 
能 不 同 ; 尽管 H 可 能 包含 无 穷 多 个 假设 , 但 其 对 D 中 示例 赋予 标记 的 可 能 结果 
数 是 有 限 的 : 对 m 个 示例 , 最 多 有 2™ 个 可 能 结 采 . 对 二 分 类 问题 来 说 , H 中 的 
假设 对 D 中 示例 赋予 标记 的 每 种 可 能 结 琳 称 为 对 D 的 一 种 “对 分 ”. 看 假设 
空间 H 能 实现 示例 集 D 上 的 所 有 对 分 , BI IIx(m) = 27, 则 称 示 例 集 D HERZ 
假设 空间 A“ FT RL” 

现在 我 们 可 以 正式 定义 VC 维 了 : 

定义 12.7 假设 空间 KH 的 VC 维 是 能 被 H 打 散 的 最 大 示例 集 的 大 小 , 即 


VC(H) = max{m : IIx(m) = 2™} . (12.23) 


VC(H) = a 表明 存在 大 小 为 d 的 示例 集 能 被 假设 空间 HFT. 注意 : 这 并 
不 意味 着 所 有 大 小 为 d 的 示例 集 都 能 被 假设 空间 HT A. 细心 的 读者 可 能 已 发 
H, VC 维 的 定义 与 数据 分 布 D 无关! 因此 , 在 数据 分 布 未 知 时 仍 能 计算 出 假设 
I] H ÉJ VC HE. 

通常 这 样 来 计算 H 的 VC SE: 若 存 在 大 小 为 d 的 示例 集 能 被 H F, 但 不 
存在 任何 大 小 为 &+L 的 示例 集 能 被 H FT, WW HOA VC HE d. 下 面 给 出 两 
个 计算 VC 维 的 例子 : 
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例 12.1 实数 域 中 的 区 间 [a,b]: & H 表示 实数 域 中 所 有 了 闭 区 间 构 成 的 集 
合 {hab :a,b E Roa < b}, X = R. Mare xX, #2 € [a,b], W haale) = +1, 
否则 hagle) = -1. $ zı = 0.5, z2 = 1.5, 则 假设 空间 HOP ER 
{hio 1 20,2), Rup Ray 将 {7z1, co} 打 散 ,所 以 假设 空间 H AI VC 维 至 少 为 2; 
对 任意 大 小 为 3 的 示例 集 {23,024,025}, 不 妨 设 za < x4 < z5, WH 中 不 存在 任 
何 假设 jap) 能 实现 对 分 结果 {(za, +), (wa, —), (z5, 十 )}. TÆ, H 的 VC 维 为 2. 


例 12.2 二 维 实 平面 上 的 线性 划分 : S H 表示 二 维 实 平面 上 所 有 线性 划 
分 构成 的 集合 , X = R? 由 图 12.1 可 知 , 存在 大 小 为 3 的 示例 集 可 被 其 打 散 ， 
但 不 存在 大 小 为 4 的 示例 集 可 被 H HR. 于 是 , 二 维 实 平面 上 所 有 线性 划分 构 
成 的 假设 空间 天 的 VC 维 为 3. 


存在 这 样 的 集合 ， 其 23 二 8 种 对 分 均 可 对 任何 集合 ， 其 24 二 16 种 对 分 中 
被 线性 划分 实现 至 少 有 一 种 不 能 被 线性 划分 实现 
(a) RRA AB (b) 示例 集 大 小 沟 4 


12.1 二 维 实 平 面 上 所 有 线性 划分 构成 的 假设 空间 的 VC 维 为 3 
由 定义 12.7 TAI, VC 维 与 增长 函数 有 密切 联系 , 引 理 12.2 给 出 了 二 者 之 
间 的 定量 关系 [Sauer, 1972]: 
亦 称 “Sauer 引 理 ”， 引 理 12.2 ”着 假 设 空 间 H 的 VC 维 为 d, MAHER m ES 有 
Tht 
Ilm) < > (r) (12.24) 


证 明 由 数学 归纳 法 证 明 . 当 m = 1, d = 0 或 a = 1 时, 定理 成 立 . 
假设 定理 对 (m — 1,d — 1) A (m — 1,d) XL. & D = {£1, £2,..., Em}, 


万 = {21, £2, s+ ee ee 


Hip = { (h(a1),h(w2),...,h(am)) | hE H} , 
Hip = { (h (æ1), h (æ2),. -h (mm—1)) | he H} j 


EMR h E H XI am 的 分 类 结果 或 为 +1, 或 为 —1, 因此 任何 出 现在 
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(7) =0. 


ee 为 自然 常数 . 


第 12 章 计算 学 习 理 论 


Hp: 中 的 串 都 会 在 Hp 中 出 现 一 次 或 两 次 . 令 Hpi 表示 在 Hp 中 出 现 两 次 
H Hip 中 串 组 成 的 集合 , 即 


Hp'ip ={(y1, Y2- - -,Ym-1) E€ Hyp | th, h EH, 
(h(x:) = h (xi) = yi) A (h(@m) Æ h rm), 1<i<gm—1}. 


BBB Hp p 中 的 串 在 Hp 中 出 现 了 两 次 , 但 在 Hp 中 仅 出 现 了 一 次 ， 


Hipl = |Xp | + [Hp yp - (12.25) 
| | 


D 的 大 小 为 m 一 1, 由 假设 可 得 


Hyl < Tm —1) < Y> (">"). (12.26) 


7=0 
令 Q 表示 能 被 Hy 打 散 的 集合 , 由 Hyp 定义 可 知 Q U {2m} 必 能 被 
Hp FTE. HHT HW VC 4EA d, 因此 Xj p 的 VC 维 最 大 为 d 一 1, 于 是 有 


d—1 


IH ppl < Hn(m—1)< ~ ("7"). (12.27) 
一心 

由 式 (12.25)~(12.27) 可 得 

IN <3 /m-1 

Hols mo) 

TEPDI UPIS ESDI ) 


z 


-D(C C) 
可 的 


© 


由 集合 万 的 任意 性 , 引 理 12.2 得 证 . u 


从 引 理 12.2 可 计算 出 增长 函数 的 上 界 : 
推论 12.2 车 假设 空间 HA VC HJ d, 则 对 任意 整数 mm >d 有 


Tx(m) < (一 一 )”. (12.28) 
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证 明 


根据 推论 12.2 和 定理 12.2 可 得 基于 VC 维 的 汉化 误差 界 : 


定理 12.3 若 假 设 空 间 HA VC HEN d, 则 对 任意 m > d,0< 6 < 1 fl 
heZX 有 


a 8dln 2 + 8ln 4 
P 区 - E(h)| < seme ssid | > (12.29) 


ež 


证 明 令 4 TIy(2m) exP( 一 一 ) < 4(2em)d exp (一 2 ) = 6, 解 得 


DETT 4 
__ ,/8din 2 + 81n§ 
m 3 


代入 定理 12.2, 于 是 定理 12.3 得 证 . E 


由 定理 12.3 可 知 , 式 (12.29) 的 泛 化 误差 界 只 与 样 例 数目 m AK, 收敛 速率 
为 O(g), SRA D 和 样 例 集 DD 无 关 . 因此 , 基于 VC 维 的 泛 化 误差 界 是 
分 布 无 关 (distribution-free)、 数 据 独 并 (data-independent) 的 . 
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S h 表示 学 习 算法 L 输出 的 假设 , 若 户 满足 


E(h) = min B(A’) ， 


(12.30) 


则 称 e 为 满足 经 验 风 险 最 小 化 (Empirical Risk Minimization, 简称 ERM) 原 


则 的 算法 . 我 们 有 下 面 的 定理 : 


定理 12.4 任何 VC 维 有 限 的 假设 空间 其 都 是 (不 可 知 ) PAC 可 学 习 的 . 
证 明 假设 © 为 满足 经 验 风险 最 小 化 原则 的 算法 , h 为 学 习 算 法 © 输出 的 


假设 . 令 9 表 示 天 中 具有 最 小 这 化 误 着 的 假设 , BH 


E(g) = min E(h) 


(In2/5) « 


2M 


3 


由 推论 12.1 可 知 


P(g) — 5 < Elg) < Bg) + 5 


E 
2 


至 少 以 1 — 6/2 的 概率 成 立 . > 


/8dln®+8n4 Æ 
m 2 


P(E(h) — E(h) < =) > 1-5 | 


则 由 定理 12.3 可 知 


从 而 可 知 


(12.31) 


(12.32) 


(12.34) 


12.5 Rademacher # = 


这 个 和 名字 是 为 了 纪念 
德国 数学 家 H. Rademach- 
er (1892-1969). 
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以 至 少 1 一 6 的 概率 成 立 ， 由 式 (12.32) 和 (12.34) 可 以 解 出 m, 再 由 H 的 任意 性 
可 知 定 理 12.4 得 证 . 国 


12.5 Rademacher 复 杂 度 


12.4 THF, 基于 VC 维 的 泛 化 误差 界 是 分 布 无 和 天、 数据 独立 的 , 也 就 是 
Wi, 对 任何 数据 分 布 都 成 立 . 这 使 得 基于 VC 维 的 可 和 党 习 性 分 析 结 果 具 有 一 定 
HJ “Verte” ; 但 从 万 一 方面 来 说 , 由 于 没有 考虑 数据 目 喘 , 基于 VC 维 得 到 
的 泛 化 误差 界 通 第 比较 “ 松 ”, 对 那些 与 和 学习 问题 的 典型 情况 相差 甚 远 的 较 
“ 坏 ” 分 布 来 说 尤其 如 此 . 


Rademacher 48 4&8 FE (Rademacher complexity) 是 男 一 种 刻画 假设 空间 复 
REPRE, 与 VC 维 不 同 的 是 , 它 在 一 定 程 度 上 考虑 了 数据 分 布 . 


B(h) = 二 > U(h(wi) 4 yi) 
t=] 


I= 


E > 1 一 yih(xi) 
TTL 


2 
1 | a | | 
= 5 = De > uhle) A (12.36) 


其 中 Lr y:h(x;) 体现 了 预测 值 hlæ) 与 样 例 真 实 标记 yi 之 间 的 一 致 性 , 车 
对 于 所 有 ie {1,2,...,m} BA hlæ) = yi, WA, yih(zi) 取 最 大 值 1. 也 
就 是 说 , 经 验 误 差 最 小 的 假设 是 
arg max i yih(zi) . (12.37) 
heH mMm =| 

然而 , 现实 任务 中 样 例 的 标记 有 时 会 受到 噪声 影响 , 即 对 某 些 样 例 (zi, yi), 
其 y 或许 已 受到 随机 因素 的 影响 , 不 再 是 mi 的 真实 标记 . 在 此 情形 下 , 选择 假 
设 空 间 H 中 在 训练 集 上 表现 最 好 的 假设 , 有 时 还 不 如 选择 中 事先 已 考虑 了 
随机 噪声 影响 的 假设 . 


考虑 随机 变量 o € A 0.5 的 概率 取 值 -1, 0.5 的 概率 取 值 +1， 称 为 


280 第 12 章 计算 学 习 理 论 


Rademacher 随机 变量 . 基于 oi 可 将 式 (12.37) 重 写 为 
H 是 无 限 假设 空间 ,有 


TTL 
可 能 取 不 到 最 大 值 , 因此 Lp a 
使 用 上 确 界 代替 最 大 值 . es m 2 oih(xi) . (12.38) 


考虑 H 中 的 所 有 假设 , 对 式 (12.38) 取 期 望 可 得 
| Lo 
Es [sup Fy 2o osha) ; (12.39) 
其 中 o = {01,02,...,0m}. 式 (12.39) 的 取 值 范围 是 [0,1], 它 体 现 了 假设 空 
间 的 表达 能 力 , 例如 , 当 [HI = 1 时 , XK 中 仅 有 一 个 假设 , 这 时 可 计算 出 


式 (12.39) 的 值 为 0; 4 [H| = 2” H H AEE D 时 , 对 任意 og 总 有 一 个 假设 使 
49 h(xi) =o; (i = 二 1,2,...,m), 这 时 可 计算 出 式 (12.39) 的 值 为 1. 


考虑 实 值 函数 空间 Fs 2 +R. $ Z = {2, 20,..-,2m}, HP a E Z, 
ThK(12.39) HA) X AH HRA Z M Fai 


定义 12.8 RMT F RF 2 AHA Rademacher 复杂 度 


Rz(F) = Ee [sup = of (es)] . (12.40) 
经 验 Rademacher 复杂 度 衡量 耳 函 数 空间 F 与 随机 噪声 在 集合 2 中 的 相 
关 性 . 通常 我 们 希望 了 解 函 数 空间 FEZ EX FA D 的 相关 性 , 因此 , 对 所 
AM D 独立 同 分 布 采 样 而 得 的 大 小 为 m 的 集合 Z 求 期 望 可 得 
定义 12.9 MATE FT Z ESti D 的 Rademacher 复杂 度 


Rm(F) = Ezez:|z|=m | Rz(F)| i (12.41) 


基于 Rademacher ARF 8) fee TRAAT] F 的 汉化 误差 界 [Mohri et al., 
2012]: 


定理 12.5 对 实 值 函数 空间 F: Z 一 [0,1], RHA DM Z 中 独立 同 分 
布 采样 得 到 示例 集 Z = {21,22,...,2m}, zi E Z, 0 < ô < 1, HR f EF, A 


12.5 RademacherS # = 


至 少 1 一 6 的 概率 有 


Elf(z)] < EP) 2Rn NY 
Elf(z)| < mei) + Rz) + 3y BO , 


证 明 令 
1 TTL 
Ez(f) = — > f(z) 
i=l 


(Z) = sup E[f] — £z(f) , 
JEF 
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(12.42) 


(12.43) 


同时 , 令 2 为 只 与 Z 有 一 个 示例 不 同 的 训练 集 , 不 妨 设 zm E Z Fil zm € ZW 


不 同 示例 , 可 得 


(Z) — (Z) = (sup E[f j= Êz (f)) — (sup Ef] 


< sup Ez(f) 一 E,(f) 
fEF 


f (2m) — f (2,) 


= sup 
JEF m 
1 
£ —. 
m 
E)E n49 
1 
(Z) — OZ’) <—, 
1 
(Z) — B(Z)| < — 


根据 McDiarmid 不 等 式 (12.7) 可 知 , 对 任意 5 e (0,1), 


In(1/6) 
2m. 


P(Z) < Ez|®(Z)| + 


(12.44) 
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利用 Jensen 不 等 式 
(12.4) 和 上 确 界 函数 的 耳 
PE 


oi 与 一 ci 分 布 相 同 . 
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以 至 少 1 一 6 的 概率 成 立 . 下 面 来 估计 Ez[®(2)] 的 上 界 : 
Ez[®(2)] = Ez | sapE[7 - Ez(f)| 
= Ez [sup Ez [E7 (A) - Ba(s)]| 
< Ez z | sup Bz (P) - Bz(f)] 
= Ezz | sup = te) — f(z))| 


=E, zz [sup = 2 cilf (4) = f(z))| 


_— ir : 
<E ,| sup — oif(zi)| +E z | sup — —oif (zi) 
oz! [Sup 7 d_ a + Bo.z| sup DoF (2) 


La \ 
= 2Eo Z [sup = > oif (zi), 
= Pia) < 


至 此 , 式 (12.42) 得 证 . 由 定义 12.9 可 知 , 改变 Z 中 的 一 个 示例 对 Re (F) 的 值 所 
造成 的 改变 最 多 为 1/m. 由 McDiarmid 不 等 式 (12.7) 可 知 ， 


Rm(F) < Rz(F) + ei) (12.45) 


以 至 少 1 一 6/2 的 概率 成 立 . 再 由 式 (12.44) 可 知 ， 


(Z) < Ez[®(Z)] + ae 
以 至 少 1 一 6/2 的 概率 成 立 . 于 是 ， 
~ lIn(2/6) | 
®(Z) < 2Rz(F) + 34 = (12.46) 
以 至 少 1 — 6 的 概率 成 立 . 至 此 , 式 (12.43) 得 证 . 7 


需 注 意 的 是 , 定理 12.5 中 的 函数 空间 F 是 区 间 [0, 1) 上 的 实 值 函 数 , 因此 
定理 12.5 只 适用 于 回归 问题 . 对 二 分 类 问题 , 我 们 有 下 面 的 定理 : 
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定理 12.6 对 假设 空间 天 :未 一 {一 1, 十 1}, 根据 分 布 D A x 中 独立 同 分 
布 采样 得 到 示例 集 D = {001,02,...,&m}, HE X,0< 6 < 1, 对 任意 h E H, 
以 至 少 1-6 的 概率 有 


E(h) < E(h) + Rm H) + - In(1/6) (12.47) 
2m 
B(h) < B(h) + Rp(H) + 3V BEL) . (12.48) 
证 明 对 二 分 类 问题 的 假设 空间 H, 令 Z= xX x {-1,41}, 则 中 的 假设 
h 变形 为 


于 是 就 可 将 值 域 为 {—1, +1} 的 假设 空间 H 转化 为 值 域 为 [0,1] 的 函数 空间 
Fu = {fn :he H}. 由 定义 12.8, 有 


la 
Rz( Fu) =, | sep = 2 fn ws vi) | 
= Eg | sup 一 > oil(h(x;i) A vi) | 


= Ey | sup 2 Soa A — =, 


heH M 记 ] 
-İg [2 + sup =D (maike) 
9 ow m 全 t m 4 a4 t 


z SE [sup — z > ( 一 yioih(ai)) | 


heH m 
| lg 
一 ie 与 or 分 +A E]. = 一 x 一 一 ， ， 
y 分 布 相 zE [sup > > (oih(zi))| 
=5Rp (H) . (12.50) 


对 去 (12.50) 求 期 望 后 可 得 


Rm(Fu) = 5 Fm(H) | (12.51) 


由 定理 12.5 和 式 (12.50)~(12.51), 定理 12.6 得 证 . = 
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证 明 过 程 参 阅 [Mohri et 
al., 2012]. 
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定理 12.6 给 出 了 基于 Rademacher 复杂 度 的 泛 化 误差 界 . 与 定理 12.3 对 比 
可 知 , 基于 VC 维 的 泛 化 误差 界 是 分 布 无 关 、 数 据 独 立 的 , 而 基于 Rademacher 
复杂 上 度 的 泛 化 误差 界 (12.47) 与 分 布 D ARK, 式 (12.48) 与 数据 DAK. RAZ, 
基于 Rademacher 复 匀 度 的 泛 化 误 闫 界 依 赖 于 具体 学 习 同 题 上 的 数据 分 布 , 有 
点 类 似 于 为 该 学 习 问 题 “ 量 身 定制 ”的 , 因此 它 通 常 比 基 于 VC 维 的 泛 化 误差 
界 更 紧 一 些 . 


值得 一 提 的 是 , 关于 Rademacher 复杂 度 与 增长 函数 , 有 如 下 定理 : 


定理 12.7 假设 空间 H MK) Rademacher 复杂 度 Rm(H) 与 增长 函数 


IIx(m) WH AL 
Ra (H) < q lm (12.52) 


由 式 (12.47), (12.52) 和 推论 12.2 可 得 


2din&# —/In(1/6) 
E(h) < E(h 一 二 anai e B 12, 
(A) (h) + n — (12.53) 


也 就 是 说 , 我 们 从 Rademacher 复杂 度 和 增长 函数 能 推导 出 基于 VC 维 的 泛 化 
RAF. 


12.6 稳定 性 


无 论 是 基于 VC 维 还 是 Rademacher 复杂 度 来 推导 泛 化 误差 界 , 所 得 到 的 
结果 均 与 具体 学 习 算 法 无 关 , 对 所 有 学 习 算 法 都 适用 . 这 使 得 人 们 能 够 脱离 具 
体 学 习 算 法 的 设计 来 考虑 学 习 问 题 本 身 的 性 质 , 但 在 另 一 方面 , 知 希 望 获得 与 
算法 有 关 的 分 析 结 果 , 则 需 另 辟 蹊 径 . 稳定 性 (stability) 分 析 是 这 方面 一 个 值 
得 关注 的 方向 . 

顾名思义 , 算法 的 “稳定 性 ”考察 的 是 算法 在 输入 发 生变 化 时 , 输出 是 否 
会 随 之 发 生 较 大 的 变化 . 学 习 算 法 的 输入 是 训练 集 , 因此 下 面 我 们 先 定义 训练 
集 的 两 种 变化 . 


给 定 D = {z1 = (x1, y1), za = (€2, Y2); - - -, Zm = (m, Ym) }, vi ET 是 来 
自分 布 D 的 独立 同 分 布 示例 , yi = {-1, +1}. 对 假设 空间 H : X — {一 1, 十 1} 
和 学 习 算 法 L, S Lp EH 表示 基于 训练 集 D 从 假设 空间 中 学 得 的 假设 . 考 
虑 万 的 以 下 变化 : 


126 稳定 性 YO 
。 D\ 表示 移 除 D 中 第 i 个 样 例 得 到 的 集合 


i 
D\ = { z1, 22, see 59 icl; Ži+l;+ +3 Zk: 


es D' 表示 等 换 万 中 第 ;个 样 例 得 到 的 集合 
D? = {z1, 22,..., 21-1, Ži 2441; ---, Zm}, 


其 中 z = (a, y,), x, 服从 分 布 D 并 独立 于 D. 


损失 函数 (£pl), y): VY x VY > R+ 刻画 了 假设 Lp 的 预测 标记 Lp(a) 与 
真实 标记 vy 之 间 的 差别 , 简 记 为 (Lp, z). 下 面 定义 关于 假设 Sp 的 几 种 损失 . 


。 泛 化 损失 


£(2, D) = Ee x ,= 一 (eg (£p, z)| i (12.54) 

e 经验 损 失 
a 1 = | | 
e(£, D) = — 2f (LD, zi) . (12.55) 


e P — (leave-one-out)ih R 


a a 
tioo(£, D) = — > (Epi Zi) - (12.56) 


i=1 
下 面 定 义 算 法 的 均 义 稳定 性 (uniform stability): 
定义 12.10 对 任何 x e X, z = (x,y), 若 学 习 算法 2 满足 


(Sp,z) —&(Lpvi,z)| S8, i=1,2,...,m, (12.57) 
则 称 关于 损失 函数 4 满足 B-TYPE TE. 


显然 , 若 算法 £2 关于 损失 函数 & 满足 8B- 均匀 稳定 性 , 则 有 


(Lp, z) — (£p, 2)| 
< (£p, z) — UL pi, z)| + (£pi, z) — (£ pv, z)| 
< 20, 
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iE AA at 42 & R [Bous- 
quet and Elisseeff, 2002]. 


最 小 化 经 验 误差 和 最 小 
化 经 验 损 失 有 时 并 不 相同 ， 
这 是 由 于 存在 某 些 病态 的 
损失 函数 & 鸽 得 最 小 化 经 
验 损 失 并 不 是 最 小 化 经 验 
误差 . 为 简化 讨论 ,本章 假 
定 最 小 化 经 验 损 失 的 同时 
会 最 小 化 经 验 误差 . 


第 12 章 计算 学 习 理 论 


也 就 是 说 , 移 除 示例 的 稳定 性 包含 替换 示例 的 稳定 性 . 


Aa Tn PRB LA, 即 对 所 有 D z = (x,y) 8 0 < l(Lp,z) < M, WA 
[Bousquet and Elisseeff, 2002]: 


定理 12.8 ”给 定 从 分 布 D 上 独立 同 分 布 采样 得 到 的 大 小 为 m 的 示例 集 
D, 若 学 习 算 法 S 满足 关于 损失 函数 4 的 8- 均匀 稳定 性 , 且 损失 函数 & 的 上 界 
AM,0<6<1, WHER m > 1, 以 至 少 1 一 6 的 概率 有 


(£, D) < WL, D) + 28 + (4m8 + M) ee | (12.58) 
(£, D) < Lioo(2, D) + B + (4mB + M) ssh (12.59) 


定理 12.8 给 出 了 基于 稳定 性 分 析 推 导出 的 学 习 算 法 上 学 得 假设 的 泛 化 误 
差 界 . 从 式 (12.58) 可 看 出 , 经 验 损 失 与 泛 化 损失 之 间 差 别 的 收敛 率 为 BVm; 若 
B= O(4), 则 可 保证 收敛 率 为 O( Fa). 与 定理 12.3 和 定理 12.6 比较 可 知 , 这 
与 基于 VC 维和 Rademacher 复杂 度 得 到 的 收敛 率 一 致 . 

需 注意 , 学 习 算 法 的 稳定 性 分 析 所 关注 的 是 AL, D) — C(£,D)|, 而 假设 空 
间 复 杂 度 分 析 所 关注 的 是 supnex |E(h) 一 E(h)|; 也 就 是 说 , 稳定 性 分 析 不 必 考 
虚假 设 空间 中 所 有 可 能 的 假设 , 只 需 根 据 算法 自身 的 特性 (稳定 性 ) 来 讨论 输出 
假设 Lp 的 汉化 误差 界 . BA, 稳定 性 与 可 学 习性 之 间 有 什么 关系 呢 ? 

首先 , 必须 假设 Bym 一 0, 这 样 才能 保证 稳定 的 学 习 算 法 £2 具有 一 定 的 泛 
化 能 力 , 即 经 验 损 失 收 敛 于 泛 化 损失 , 否则 可 学 习性 无 从 谈 起 . 为 便于 计算 , 我 
们 假定 8 = +, 代入 式 (12.58) 可 得 


(L, D) < £, D) + = + (4+ M) eae?) (12.60) 


2m 


XY fia Fe PR 0, Fe SE L A eG A Ee ea a XE tin RE, 则 称 算 法 
L 满足 经 验 风 险 最 小 化 (Empirical Risk Minimization) 原则 , 简称 算法 是 ERM 
的 . 关于 学 习 算 法 的 稳定 性 和 可 学 习性 , 有 如 下 定理 : 

定理 12.9 车 学 习 算 法 £ Æ ERM 且 稳 定 的 , 则 假设 空间 HJJ. 


证 明 令 g 表示 ZX 中 具有 最 小 泛 化 损失 的 假设 , BH 


12.7 阅读 材料 


257 
f D) = min Å h. D). 
(g, ) REH ( 3 ) 


由 Hoeffding 不 等 式 (12.6) 可 知 , 4 m > 1n $ H, 


2 
以 至 少 1 — 6/2 的 概率 成 并 . 令 式 (12.60) 中 


2 army: 


Dm i” 
解 得 m = O(a In =) 使 


(L, D) < ÑS, D) + 5 
以 至 少 1 — 6/2 的 概率 成 并 从 而 可 得 


re, 


e(£,D) — L(g, D) < &(£,D) + f _ (9, D) 7 a 
X£, D) — &(g,D) + € 
SE 


以 至 少 1 一 6 的 概率 成 立 . 定理 12.9 得 证 . 


= 
对 上 和 面 这 个 定理 读者 也 许 会 纳 闽 , DA E SE A ee E RET b RRE 
同 的 可 学 习性 ? 学 习 算 法 和 假设 空间 是 两 码 事 呀 . 事实 上 , 要 注意 到 稳定 性 与 
假设 空间 并 非 无 关 , 由 称 定 性 的 定义 可 知 酚 者 通过 损失 函数 e 联系 起 来 . 


12.7 阅读 材料 


[Valiant, 1984] 提出 PAC 和 学习, 由 此 产生 了 “计算 学习 理论 ”这 个 机 器 学 
习 的 分 文 领域 . [Kearns and Vazirani, 1994] 是 一 本 很 好 的 入 门 教材 . 该 领域 最 
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VC 维 的 和 名字 就 来 自 两 
位 作者 的 姓氏 缩写 . 


第 12 章 计算 学 习 理 论 


重要 的 学 术 会 议 是 国际 计算 学 习 理论 会 议 (COLT). 

VC 维 由 [Vapnik and Chervonenkis, 1971] 提出 , 它 的 出 现 使 研究 无 限 假 
设 宇 间 的 复杂 度 成 为 可 能 . Sauer 引 理 由 于 [Sauer, 1972] 而 命名 , 但 [Vapnik 
and Chervonenkis, 1971] 和 [Shelah, 1972] 也 分 别 独 立地 推导 出 了 该 结果 . 本 
章 主 要 讨论 了 二 分 类 问题 , 对 多 分 类 问题 , 可 将 VC 45 RA Natarajan 维 
[Natarajan, 1989; Ben-David et al., 1995). 

Rademacher #8 48 fe FL 4% [Koltchinskii and Panchenko, 2000] 引入 机 器 
学 习 , 由 [Bartlett and Mendelson, 2003] 而 受到 重视 . [Bartlett et al., 2002] 提 
出 了 局 部 Rademacher AASE, 对 噪声 数据 可 推导 出 更 紧 的 泛 化 误差 界 . 

机 器 学 习 算 法 稳定 性 分 析 方 面 的 研究 始 于 [Bousquet and Elisseeff, 2002] 
的 工作 , 此 后 很 多 学 者 对 稳定 性 与 可 学 习性 之 间 的 关系 进行 了 讨论 , [Mukherjee 
et al., 2006] 和 [Shalev-Shwartz et al., 2010] 证 明了 ERM 稳定 性 与 ERM 可 学 
习性 之 间 的 等 价 关 系 ; 但 并 非 所 有 学 习 算 法 都 是 ERM 的 , 因此 [Shalev-Shwartz 
et al., 2010] 进一步 研究 了 AERM (Asymptotical Empirical Risk Minimization) 
稳定 性 与 可 学 习性 之 间 的 关系 . 

本 章 介 绍 的 内 容 都 是 关于 确定 性 (deterministic) 学 习 问 题 , 即 对 于 每 个 示 
Bil z 都 有 一 个 确定 的 标记 y 与 之 对 应 ; 大 多 数 监 督学 习 都 属于 确定 性 学 习 问 题 . 
但 还 有 一 种 随机 性 (stochastic) 学 习 问 题 , 其 中 示例 的 标记 可 认为 是 属性 的 后 
验 概 率 函 数 , 而 不 再 是 简单 确定 地 属于 某 一 类 . 随机 性 学 习 问 题 的 泛 化 误差 界 
分 析 可 参见 [Devroye et al., 1996]. 


习题 


12.10° 
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试 证 明 Jensen 不 等 式 (12.4)， 
试 证 明 引 理 12.1. 

试 证 明 推 论 12.1. 

试 证 明 : Ri 空间 中 线性 超 平 面 构成 的 假设 空间 的 VC 维 是 d 填 1. 
试 计 算 决 策 树桩 假设 空间 的 VC HE. 

试 证 明 : 决策 树 分 类 器 的 假设 空间 VC 维 可 以 为 无 穷 大 . 

斌 证明: 最 近邻 分 类 器 的 假设 空间 VC 维 为 无 穷 大 . 

试 证 明 常 数 函数 c 的 Rademacher 复杂 度 为 0. 


给 定 函 数 空间 Fy. Fo, 试 证 明 Rademacher 复杂 度 Rm(Fi + Fe) S 
Rm(Fi) + Rm(F2). 


考虑 定理 12.8, 试 讨论 通过 区 又 验证 法 来 估计 学 习 算 法 泛 化 能 力 的 合 
理性 . 
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小 故事 : 计算 学 习 理 论 之 父 莱 斯 利 " 维 利 晶 特 

计算 机 科学 的 绝 大 多 数 分 支 领域 中 都 既 有 理论 研究 , 也 
有 应 用 研究 , 但 当 人 们 说 到 “理论 计算 机 科学 ”时 , 通常 
是 指 一 个 特定 的 研究 领域 一 一 TCS (Theoretical Computer 
Science), 它 可 看 作 计 算 机 科学 与 数学 的 交 又 , 该 领域 中 最 
著名 的 问题 是 “P?=NP”. 

计算 学 习 理 论 是 机 器 学 习 的 一 个 分 支 , 它 可 认为 是 机 器 学 习 与 理论 计算 机 
科学 的 交叉 . 提起 计算 学 习 理 论 , 就 必然 要 谈 到 英国 计算 机 科学 家 莱 斯 利 。 维 
Ail i 4% (Leslie G. Valiant, 1949— ). 维 利 昂 特 先后 在 剑桥 大 学 国王 学 院 、 帝 
国 理工 学 院 学 习 , 1974 年 在 华威 大 学 获 计算 机 科学 博士 学 位 , 此 后 曾 在 卡 耐 
基 梅 隆 大 学 、 利 兹 大 学 和 和 爱丁堡 大 学 任教 , 1982 年 来 到 哈佛 大 学 任 计算 机 与 
应 用 数学 讲 席 教授 . 1984 年 他 在 《ACM 通 讯 》 发 表 了 论文 “A theory of the 
learnable” . 这 篇 论文 首次 提出 了 PAC 学习, 从 而 开创 了 计算 学 习 理 论 的 研究 . 
2010 年 ACM 授予 维 利 昂 特 图 灵 奖 , 以 表彰 他 对 PAC 学 习 理 论 的 开创 性 贡献 ， 
以 及 他 对 枚 举 和 计算 代数 复杂 性 等 其 他 一 些 理论 计算 机 科学 问题 的 重要 贡献 . 
颁奖 词 特别 指出 , 维 利 晶 特 在 1984 年 发 表 的 论文 创立 了 计算 学 习 理 论 这 个 研 
RH, 使 机 器 学 习 有 了 坚实 的 数学 基础 , 扫 清 了 学 科 发 展 的 障碍 . KACM ST 
HY WL “ACM Turing Award Goes to Innovator in Machine Learning” 为 
题 对 这 位 机 器 学 习 领 域 首 位 图 灵 奖 得 主 的 功绩 大 加 误 扬 . 


例如 基于 Di 训练 一 个 
SVM, 挑选 距离 分 类 超 平 
面 最 近 的 未 标记 样本 来 进 
行 查询 ， 


即 尽量 少 向 瓜农 询问 . 
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13.1 未 标记 样本 


我 们 在 丰收 季节 来 到 瓜 田 , 清 地 都 是 西瓜 , 瓜农 抱 来 三 四 个 瓜 说 这 都 是 好 
K, 然后 再 指 着 地 里 的 五 六 个 瓜 说 这 些 还 不 好 , 还 需 再 生长 若干 天 . 基于 这 些 信 
A, 我 们 能 否 构 建 一 个 模型 , 用 于 判别 地 里 的 哪些 瓜 是 已 该 采摘 的 好 瓜 ” 显然 ， 
可 将 瓜农 告诉 我 们 的 好 瓜 、 不 好 的 瓜分 别 作 为 正 例 和 反例 来 训练 一 个 分 类 器 . 
然而 , 只 用 这 不 到 十 个 瓜 做 训练 样本 , 有 点 太 少 了 吧 ? 能 不 能 把 地 里 的 那些 瓜 
也 用 上 呢 ? 

形式 化 地 看 , 我 们 有 训练 样本 集 Di = {(x1, y1), (2, y2), (Ep y) 这 1 
个 样本 的 类 别 标记 ( 即 是 否 好 瓜 ) 已 知 , 称 为 “有 标记 ”(labeled) 样 本 ; 此 外 , 还 
有 Dy = {£i41, W142;y Zi lE vu, 这 个 样本 的 类 别 标 记 未 知 ( 即 不 知 是 
否 好 瓜 ), 称 为 “未 标记 ”(unlabeled) 样 本 . 铬 直接 使 用 传统 监督 学 习 技 术 ， 则 
MA Di 能 用 于 构建 模型 ，D,, MEE Af BUR eS; 男 一 方面 , 4 Di 较 小 ， 
则 由 于 训练 样本 不 足 , 和 学 得 模型 的 泛 化 能 力 往 往 不 佳 . 那么 , 能 否 在 构建 模型 的 
过 程 中 将 万, 利用 起 来 呢 ? 

一 个 简单 的 做 法 , 是 将 D 中 的 示例 全 部 标记 后 用 于 学 习 . 这 就 相当 于 请 瓜 
农 把 地 里 的 瓜 全 都 检查 一 过 , 告诉 我 们 哪些 是 好 瓜 , 哪些 不 是 好 瓜 , 然后 再 用 于 
模型 训练 . 显然 , 这 样 做 需 耗 费 瓜 农大 量 时 间 和 精力 . 有 没有 “便宜 ”一 点 的 
办 法 呢 ? 

我 们 可 以 用 Di 先 训 练 一 个 模型 , 拿 这 个 模型 去 地 里 挑 一 个 瓜 , 询问 瓜农 好 
不 好 , 然后 把 这 个 新 获得 的 有 标记 样本 加 入 Di 中 重新 训练 一 个 模型 , 再 去 挑 
J 这 样 , 看 每 次 都 挑 出 对 改善 模型 性 能 帮助 大 的 瓜 , 则 只 需 询 问 瓜 农 比 较 
少 的 瓜 束 能 构建 出 比较 强 的 模型 , 从 而 大 帐 降低 标记 成 本 . 这 样 的 学 习 方 式 称 
为 “主动 学 习 ”(active learning), $ H treet Sab ay “Av” (query) RIK 
得 尽量 好 的 性 能 . 

显然 , 主动 学 习 引 入 了 额外 的 专家 知识 , 通过 与 外 界 的 交互 来 将 部 分 未 标 
记 样 本 转变 为 有 标记 样本 . Be PGR RACE, 没有 获得 额外 信息 , 还 能 利用 未 标 
记 样 本 来 提高 泛 化 性 能 吗 ? 

答案 是 “Yes 1”, A SEER AT? 
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“ 流 形 ” 概 念 是 流 形 学 
习 的 基础 , 参见 10.5 7. 


聚 类 假设 考虑 的 是 类 别 
标记 , 通常 用 于 分 类 任务 . 
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事实 上 , 未 标记 样本 虽 未 直接 包含 标记 信息 , 但 者 它们 与 有 标记 样本 是 从 
同样 的 数据 源 独 立 同 分 布 采 样 而 来 , 则 它们 所 包含 的 关于 数据 分 布 的 信息 对 建 
并 模型 将 大 有 神 益 . 图 13.1 给 出 了 一 个 直观 的 例 示 . 阁 仅 基于 图 中 的 一 个 正 例 
和 一 个 反例 , 则 由 于 每 判别 样本 恰 位 于 两 者 正中 间 , 大 体 上 只 能 随机 猜测 ; rRe 
观察 到 图 中 的 未 标记 样本 , 则 将 很 有 把 握 地 判别 为 正 例 . 


aa 3% ti a5 salad 3 1 
+? 一 ? 十 ， 


[seve MR BI ete 
未 标记 样本 , m 


- öö = Door 275 = 4 


13.1 未 标记 样本 效用 的 例 示 . 右边 的 灰色 点 表示 未 标记 样本 


让 尝 习 器 不 依赖 外 界 交 互 、 上 自动 地 利用 未 标记 样本 来 提升 学 习性 能 , 就 是 
半 监 督学 习 (semi-supervised learning). 半 监 督学 习 的 现实 需求 非常 强烈 , 因为 
在 现实 应 用 中 往往 能 容易 地 收集 到 大 量 未 标记 样本 , 而 获取 “标记 ” 却 需 耗 费 
人 力 、 物 力 . 例如 , 在 进行 计算 机 辅助 医学 影像 分 析 时 , 可 以 从 医院 获得 大 量 医 
学 影像 , 但 者 和 硕 望 医 学 专家 把 影像 中 的 病灶 全 都 标识 出 来 则 是 不 现实 的 . “有 
标记 数据 少 , 未 标记 数据 多 ”这 个 现象 在 互联 网 应 用 中 更 明显 , 例如 在 进行 网 
页 推荐 时 需 请 用 户 标 记 出 感 兴趣 的 网 页 , 但 很 少 有 用 户 愿 花 很 多 时 同 来 提供 标 
记 , 因此 , 有 标记 网 页 样本 少 , 但 互联 网 上 存在 无 数 网 页 可 作为 未 标记 样本 来 使 
H. 半 监 督学 习 恰 是 提供 了 一 条 利用 “廉价 ”的 未 标记 样本 的 途径 . 

要 利用 未 标记 样本 , 必然 要 做 一 些 将 未 标记 样本 所 揭示 的 数据 分 布 信息 与 
ZR All py WAAR RAR A. Be AY LIN se “FRA” (cluster assumption), 即 假 
设 数据 存在 簇 结 构 , 同一 个 簇 的 样本 属于 同一 个 类 别 . 图 13.1 就 是 基于 聚 类 假 
设 来 利用 未 标记 样本 , 由 于 竺 预测 样本 与 正 例 样本 通过 未 标记 样本 的 “撮合 ” 
聚 在 一 起 , 与 相对 分 离 的 反例 样本 相 比 , 待 判别 样本 更 可 能 属于 正 类 . 半 监 督 
“ed PaaS LA “IEA” (manifold assumption), 即 假设 数据 
分 布 在 一 个 流 形 结构 上 ,邻近 的 样本 拥有 相似 的 输出 值 . “邻近 ”程度 常用 “ 相 
似 ” 程 度 来 刻画 , 因此 , 流 形 假设 可 看 作 聚 类 假设 的 推广 , 但 流 形 假设 对 输出 值 
没有 限制 , 因此 比 聚 类 假设 的 适用 范围 更 广 , 可 用 于 更 多 类 型 的 学 习 任 务 . 事实 
E, 无 论 聚 类 假设 还 是 流 形 假设 , 其 本 质 都 是 “相似 的 样本 拥有 相似 的 输出 ” 
这 个 基本 假设 . 


13.2 生成 式 方 法 


EM 算法 参见 7.6 H. 
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半 监 督学 习 可 进一步 划分 为 纯 (pure) 半 监督 学 习 和 直 推 学 习 (transductive 
learning), 前 者 假定 训练 数据 中 的 未 标记 样本 并 非 待 预测 的 数据 , 而 后 者 则 假 
定 学 习 过 程 中 所 考 虚 的 未 标记 样本 恰 是 竺 预测 数据 , 学 习 的 目的 就 是 在 这 些 
未 标记 样本 上 获得 最 优 泛 化 性 能 . 换言之 , 纯 半 监督 学 习 是 基于 “开放 世界 ” 
假设 , 希望 学 得 模型 能 适用 于 训练 过 程 中 未 观察 到 的 数据 ; 而 直 推 学 习 是 基 
于 “封闭 世界 ”假设 , 仪 试图 对 学 习 过 程 中 观察 到 的 未 标记 数据 进行 预测 . 
图 13.2 直观 地 显示 出 主动 学 习 、 纯 半 监 督学 习 、 直 推 学 习 的 区 别 . 需 注意 的 
是 , 纯 半 监督 学 习 和 直 推 学 习 常 合 称 为 半 监 督学 习 , 本 书 也 采取 这 一 态度 , 在 需 
专门 区 分 时 会 特别 说 明 . 
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图 13.2 主动 学 习 、( 纯 ) 半 监督 学 习 、 直 推 学 习 


13.2 生成 式 方法 


生成 式 方法 (generative methods) 是 直接 基于 生成 式 模型 的 方法 . 此 类 方法 
假设 所 有 数据 (无 论 是 否 有 标记 ) 都 是 由 同一 个 潜在 的 模型 “生成 ”的 . 这 个 假 
设 使 得 我 们 能 通过 潜在 模型 的 参数 将 未 标记 数据 与 学 习 目 标 联系 起 来 , 而 未 标 
记 数 据 的 标记 则 可 看 作 模 型 的 缺失 参数 , 通常 可 基于 EM 算法 进行 极 大 似 然 估 
计 求 解 . 此 类 方法 的 区 别 主 要 在 于 生成 式 模型 的 假设 , 不 同 的 模型 假设 将 产生 
不 同 的 方法 . 
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这 个 假设 意味 着 混合 成 
分 与 类 别 之 间 一 一 对 应 . 


高 斯 混合 模型 参见 9.4 
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给 定 样本 oc, 其 真实 类 别 标记 为 ye V, HP YV = {1,2,...,N} 为 所 有 可 能 


的 类 别 . 假设 样本 由 高 斯 混合 模型 生成 , 且 每 个 类 别 对 应 一 个 高 斯 混合 成 分 . 换 
Be, 数据 样本 是 基于 如 下 概率 密度 生成 : 


N 
p(a) = Soa -p(T | Mi, X) 3 (13.1) 
i=1 


其 中 , 混合 系数 a; > 0, TN, ai = 1; p(w | mi, Di) 是 样本 x 属于 第 i 个 高 斯 混 
合成 分 的 概率 ; ui AD, 为 该 高 斯 混合 成 分 的 参数 . 

S f(x) e 站 表示 模型 对 z 的 预测 标记 , O e {1,2,...,N} 表示 样本 a 
隶属 的 高 斯 混合 成 分 . 由 最 大 化 后 验 概率 可 知 


f(x) = arg max p(y = j | æ) 
jEY 


N 
= argmax 》 p(y = j,O = i | 2) 
JE 


i=1 
N 
=argmax 》 p(y = j | O = i, Œ) - p(O = i | x) , (13.2) 
JEY i=] 
其 中 
ci PIT | Hi, Xi 


>, ai p(x | Hi, Xi) 
i=1 


为 样本 x 由 第 i 个 高 斯 混合 成 分 生成 的 后 验 概 率 , p(y = 7 |O=i,2)Na MH 
第 i 个 高 斯 混合 成 分 生成 且 其 类 别 为 7 的 概率 . 由 于 假设 每 个 类 别 对 应 一 个 高 
斯 混合 成 分 , 因此 ply = j | O = i x) 仪 与 样本 zw 所属 的 高 斯 混合 成 分 日 有关， 
可 用 p(y = 7 | O = 1) RE. 不 失 一 般 性 , 假定 第 i 个 类 别 对 应 于 第 i 个 高 斯 泥 
合成 分 , B p(y =j 9s:i)=s1 5HRS i=j, EU ply =j|9=i)=0. 

不 难 发 现 , 式 (13.2) 中 估计 p(y = j | O = i x) 需 知道 样本 的 标记 , 因此 仅 
能 使 用 有 标记 数据 ; 而 p(9 = i | x) 不 涉及 样本 标记 , 因此 有 标记 和 未 标记 数据 
均 可 利用 , 通过 引入 大 量 的 未 标记 数据 , 对 这 一 项 的 估计 可 望 由 于 数据 量 的 增 
长 而 更 为 准确 , 于 是 式 (13.2) 整 体 的 估计 可 能 会 更 准确 ， 由 此 可 清楚 地 看 出 未 标 
记 数 据 何以 能 辅助 提高 分 类 模型 的 性 能 . 

给 定 有 标记 样本 集 Di = {(Z1; y1), (ZX2,y2),..., (ar, yr) } 和 未 标记 样本 集 
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ee eee Du = {®i41, Li42,---,Vipus, <u, l+u=m. 假设 所 有 样本 独立 同 分 布 , H. 
i OA A ae I | J ap å 3 nS xj 一 = ` , 
记 样 本 数 虽然 此 假设 实 “” 都 是 由 同一 个 高 斯 混合 模型 生成 的 . 用 极 大 似 然 法 来 估计 高 斯 混合 模型 的 参数 


际 并 非 必 须 ， {(ai, wi, Ei) |1 <i < N}, Di U Du 的 对 数 似 然 是 


LL(DıU Da)= Š In (> a; - p(x; | Hi, Ei) - p(y; | O = =) 


(25,4; JED, i=l 
N 

+ > h es ay, p(x; | Hi, =) , (13.4) 
zj;ED, = 


式 (13.4) 由 两 项 组 成 : 基于 有 标记 数据 Di 的 有 监督 项 和 基于 未 标记 数据 D 的 
高 斯 混合 模型 聚 类 的 ”无 监督 项 . 显然 , 高 斯 混合 模型 参数 估计 可 用 EM 算法 求解 , 迭代 更 新 式 如 下 : 


EM 算法 参见 9.4 闻 ， 


eR: 根据 当前 模型 参数 计算 未 标记 样本 zx; 属于 各 高 斯 混合 成 分 的 概率 
可 通过 有 标记 数据 对 模 本 ,| a. 3: 
型 参数 进行 初始 化 . yji = (13.5) 
D ‘p(T; | Mi, Xi) 


eM: 基于 gu 更 新 模型 参数 , 其 中 L 表示 第 i 类 的 有 标记 样本 数目 


1 
‘== ay + ’ zi | ， 13.6 
2 VG + i | Dd, Wis a | (13.6) 


x ,€Dy xjoDu (x;,y;)EDi^yj=i 
1 
2; = EL >, yale; — (oj — ps)” 
> Yji 十 bi 2 Ep 
x;EDuy I u 


十 > (xj — pi) (az 一 oo , (13.7) 


(wj Yj )€Di Ay; =i 


1 
wi = 的 Yji + ) , (13.8) 
Lh Eee A WHEE Ee, 即 可 获得 模型 参数 . 然后 由 式 (13.3) 和 (13.2) 就 能 
对 样本 进行 分 类 . 

将 上 述 过 程 中 的 高 斯 混合 模型 换 成 混合 专家 模型 [Miller and Uyar, 
1997]、 朴 素 贝 叶 斯 模型 [Nigam et al., 2000) 等 即 可 推导 出 其 他 的 生成 式 半 
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SVM LÆ 6 Ž#. 
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监督 学 习 方 法 . 此 类 方法 简单 , 易于 实现 , 在 有 标记 数据 极 少 的 情形 下 往往 比 其 
他 方法 性 能 更 好 . 然而 , 此 类 方法 有 一 个 关键 : 模型 假设 必须 准确 , 即 假设 的 生 
成 式 模 型 必须 与 真实 数据 分 布 吻合 ; 否则 利用 未 标记 数据 反倒 会 降低 汉化 性 能 
[Cozman and Cohen, 2002]. 遗憾 的 是 , 在 现实 任务 中 往往 很 难事 先 做 出 准确 
的 模型 假设 , 际 非 拥有 充分 可 靠 的 领域 知识 . 


13.3 半 监 督 SVM 


半 临 督 支持 同 量 机 (Semi-Supervised Support Vector Machine， 和 人 简称 
S3VM) 是 交 持 同 量 机 在 半 监 督学 习 上 的 推 王 .在 不 考虑 未 标记 样本 时 , 352 
持 同 量 机 试图 找到 最 大 则 隅 划分 超 平 徊 , 而 在 考 虚 未 标记 样本 后 ，S3VM 试 
图 找到 能 将 两 类 有 标记 样本 分 开 , 日 穿 过 数据 低 密 度 区 域 的 划分 超 平面 ,如 
图 13.3 Bras, 这 里 的 基本 假设 是 “ 低 密度 分 隔 ”(low-density separation)， 显 
然 , 这 是 聚 类 假设 在 考虑 了 线性 超 平面 划分 后 的 推广 . 


S3VM 划 分 超 平 面 


SVM 划分 超 平 面 


图 13.3 半 监 督 支 持 向 量 机 与 低 密 度 分 隔 (“二 ” “一 ”分 别 表 示 有 标记 的 正 、 反 例 ， 
灰色 点 表示 未 标记 样本 ) 


半 监 督 支 持 同 量 机 中 最 著名 的 是 TSVM (Transductive Support Vector 
Machine) [Joachims，1999]， 与 标准 SVM —#, TSVM 也 是 针对 二 分 类 问题 
的 学 习 方法 . TSVM 试图 考虑 对 未 标记 样本 进行 各 种 可 能 的 标记 指派 (label 
assignment), 即 和 尝试 将 每 个 未 标记 样本 分 别 作 为 正 例 或 反例 , 然后 在 所 有 这 些 
结果 中 , 寻求 一 个 在 所 有 样本 ( 包 插 有 标记 样本 和 进行 了 标记 指派 的 未 标记 样 
本 ) 上 间隔 最 大 化 的 划分 超 平 面 . 一 旦 划分 起 平面 得 以 确定 , 未 标记 样本 的 最 终 
标记 指派 就 是 其 预测 结果 . 


13.3” 半 监督 SVM 
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形式 化 地 说 ， 给 定 Dı 一 1 Y1), (@2, Y2) -3 (E Y1) } 和 Du = {©i+41; 
TI 2; , Eitu f» 其 中 Yi E {—1, +1}, L<u,l+u=m. TSVM 的 学 习 目标 是 
为 Di 中 的 样本 给 出 预测 标记 宁 = (G41, Gi42,---,Gi4+u), i €{-1, +1}, 使 得 


l mm. 
1 | l 
min sllwlls + Ci > Ei + Cu > E: (13.9) 


iii i=1 i=l+1 
s.t. y(wia;, +b) >1—&, i=1,2,...,], 
Gi (wa, +b) >1-&; #=f+1,l+2,...,m, 


Se 0, ¿i= 1,2,...,m, 


其 中 , (w,b) 确定 了 一 个 划分 超 平 面 ; € ARE, &; (i = 1,2,...,1) 对 应 于 有 
标记 样本 , & (i =141,14+2,...,m) 对 应 于 未 标记 样本 ; CS CO 是 由 用 户 指 
定 的 用 于 平衡 模型 复杂 度 、 有 标记 样本 与 未 标记 样本 重要 程度 的 折 中 参数 . 

显然 , 尝试 未 标记 样本 的 各 种 标记 指派 是 一 个 穷 举 过 程 , 仅 当 未 标记 样本 
很 少时 才 有 可 能 直接 求解 . 在 一 般 情 形 下 , 必须 考虑 更 高 效 的 优化 策略 . 

TSVM 采用 局 部 搜索 来 兴 代 地 寻找 式 (13.9) 的 近似 解 . 具体 来 说 , 它 先 利 
用 有 标记 样本 学 得 一 个 SVM, 即 忽 略 式 (13.9) 中 涉及 Cu 与 的 项 及 约束 . 然 
后 , 利用 这 个 SVM 对 未 标记 数据 进行 标记 指派 (label assignment), 即将 SVM 
预测 的 结果 作为 “ 伪 标 记 ”(pseudo-label) 赋 予 未 标记 样本 . 此 时 当成 为 已 知 ， 
将 其 代入 式 (13.9) 即 得 到 一 个 标准 SVM 问题 , 于 是 可 求解 出 新 的 划分 超 平 面 和 
松弛 同 量 ; 注意 到 此 时 未 标记 样本 的 伪 标 记 很 可 能 不 准确 , 因此 Cu 要 设置 为 比 
Ci 小 的 值 , 使 有 标记 样本 所 起 作用 更 大 . 接 下 来 , TSVM 找 出 两 个 标记 指派 为 
异类 且 很 可 能 发 生 错 误 的 未 标记 样本 , 交换 它们 的 标记 , 再 重新 基于 式 (13.9) 求 
解 出 更 新 后 的 划分 超 平 面 和 松弛 辐 量 , 然后 再 找 出 两 个 标记 指派 为 异类 且 很 可 
能 发 生 错 误 的 未 标记 样本 ，…… 标记 指派 调整 完成 后 , 逐渐 增 大 Cu 以 提高 未 标 
记 样 本 对 优化 目标 的 影响 , 进行 下 一 轮 标 记 指 派 调整 , 直至 Cu = Cy AE. 此 时 
求解 得 到 的 SVM 不 仅 给 未 标记 样本 提供 了 标记 , 还 能 对 训练 过 程 中 未 见 的 示 
例 进 行 了 预测. TSVM 的 算法 描述 如 图 13.4 Bras. 

在 对 未 标记 样本 进行 标记 指派 及 调整 的 过 程 中 , 有 可 能 出 现 类 别 不 平衡 问 
A, 即 某 类 的 样本 远 多 于 另 一 类 , 这 将 对 SVM 的 训练 造成 困扰 . 为 了 减轻 类 别 
不 平衡 性 所 造成 的 不 利 影响 , 可 对 图 13.4 的 算法 稍 加 改进 : 将 优化 目标 中 的 Cu 
项 拆 分 为 Cr 与 C 两 项 , 分 别 对 应 基于 伪 标 记 而 当 作 正 、 反 例 使 用 的 未 标记 


类别 不 平衡 问题 及 样本 , 并 在 初始 化 时 令 


式 (13.10) 的 缘由 见 3.6 节 . 


300 


此 时 下 为 已 知 . 


Ui 与 Uj 进行 调整 . 


提高 未 标记 样本 的 影响 ， 


收 a bE iE A A 
[Joachims, 1999]. 
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MA: 有 标记 样本 集 Di = {(Œ1, Y1), Aaa sg (Œ; Y1) X; 
未 标记 样本 集 Du = {£i41, Tit2; -3 Elhu}; 
折 中 参数 Ci, Cu. 
过 程 : 
1: 用 Di 训练 一 个 SVM;; 
2: 用 SVM, 对 D, 中 样本 进行 预测 , BI G = (9141, Gi4e,---; Fru); 
3: 初始 化 Cu < Ch; 
4: while Cu < C do 


z 起 于 Di, Du, Ñ, Ci, Cu 求解 式 (13.9)， 得 到 (w, b), £; 

6 while Hi, j | (Git; <O)A(& > 0) 和 人 (E; > 0) A (£i 十 Ej > 2)} do 
7: Yi = — i; 

8 Yj = —Y;; 


9: 基于 Di, Du, Ü, Cl, Cu EP ac fF TK (13.9), 得 到 (w, b), E 
10: end while 
11: Ca = min{2C,,, Ci} 
12: end while 


输出 : 未 标记 样本 的 预测 结果 : G = (G41, Hire, --->Gi+u) 
图 13.4 TSVM 算法 


Ci = = C}, (13.10) 


其 中 w+ 5 u- 为 基于 伪 标 记 而 当 作 正 、 反 例 使 用 的 未 标记 样本 数 . 

在 图 13.4 算法 的 第 6-10 行 中 , 奋 存 在 一 对 未 标记 样本 mi 与 ej, 其 标记 
指派 家 与 Üj 不 同 , 且 对 应 的 松弛 变量 请 足 &; 十 Ej > 2, 则 意味 看 Qi 与 Üj 很 可 
能 是 错误 的 , 需 对 二 者 进行 交换 后 重新 求解 式 (13.9), 这 样 每 轮 从 代 后 均 可 使 
式 (13.9) 的 目标 函数 值 下 降 . 

显然 , 搜寻 标记 指派 可 能 出 错 的 每 一 对 未 标记 样本 进行 调整 , 是 一 个 涉 
及 巨大 计算 开销 的 大 规模 优化 问题 . 因此 , 半 监 督 SVM 研究 的 一 个 重点 是 
如 何 设计 出 高 效 的 优化 求解 策略 , 由 此 发 展 出 很 多 方法 , 如 基于 图 核 (graph 
kernel) i 2b FE F MEN LDS [Chapelle and Zien, 2005]、 基 于 标记 均值 估计 的 
meanS3VM [Li et al., 2009] 等 . 


13.4 图 半 监 督学 习 


给 定 一 个 数据 集 , 我 们 可 将 其 映射 为 一 个 图 , 数据 集中 每 个 样本 对 应 于 图 
中 一 个 结 点 , 若 两 个 样本 之 间 的 相似 度 很 高 (或 相关 性 很 强 ), 则 对 应 的 结 点 之 间 
存在 一 条 边 , 边 的 “强度 ”(strength) 正 比 于 样本 之 间 的 相似 度 (或 相关 性 ). 我 
们 可 将 有 标记 样本 所 对 应 的 结 点 想象 为 染 过 色 , 而 未 标记 样本 所 对 应 的 结 点 尚 


13.4 图 半 监 督学 习 


能 量 函 数 最 小 化 时 即 得 
Zi) ea He RK. 


W 为 对 称 算 阵 , 因此 d; 
亦 为 W 第 衬 列 元 素 之 和 ， 
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RRE. TE, 半 监 督学 习 就 对 应 于 “颜色 ”在 图 上 扩散 或 传播 的 过 程 . 由 于 一 
个 图 对 应 了 一 个 矩阵, 这 就 使 得 我 们 能 基于 和 抢 阵 运算 来 进行 半 监 督学 习 算 法 的 
推导 与 分 析 . 


给 定 Di = {(21,91), (X2, Y2), -- - , (@1, yr) } A Du = {£i+1; Vi42,---, Bitu}, 
l&u, l+u =m. REZET Dı U Du 构建 一 个 图 G = (V, E), RP HA 
集 V = {£1,... , Zi, Eil,- Zu WE E URRA ARMER (affinity 
matrix), 党 基于 局 斯 函数 定义 为 

—||xi—w 5 |13 Ti | 。 
exp a: cae ; rd Fj ’ a 
0, otherwise , 


HP i,j € {1,2,...,.m},0 >0 是 用 户 指定 的 高 斯 函数 带宽 参数 . 


假定 从 图 G = (V, E) K FBTR f: VOR, 其 对 应 的 分 类 规则 
为 : yi = sign(f(wi)), yi € (1, +1}. 直观 上 看 , 相似 的 样本 应 具有 相似 的 标记 ， 
于 是 可 定义 关于 上 的“ 能量 图 数 ”(energy function) [Zhu et al., 2003]: 


BA) = 5 SSW) Ue) — F(@;)) 


i=1 j=l 
= 5 (Sa f’ (æ) + Da f’ (a5) — LL urenren) 
i=l 7 
= =S. di J” (x) E > SW) feds) 
i=] i=l j= 
=f (D-W)f, (13.12) 


EP f = (Fifa h = (Fæ; Jæ), fe = Uem) 
færa); ...; 了 (www)) 分 别 为 函数 了 在 有 标记 样本 与 未 标记 样本 上 的 预测 结果 ， 
D = diag(dı, d2,.…., dipu) 是 一 个 对 角 和 矩阵 , 其 对 角 元 素 di = Hi(W)ij HE 
阵 W 的 第 i 行 元 素 之 和 


具有 最 小 能 量 的 函数 上 在 有 标记 样本 上 满足 f(a.) = yi (i = 1,2,...,0), 
在 未 标记 样本 上 满足 Ap =0, 其 中 人 和 =D 一 W 为 拉 普 拉 斯 矩阵 (Laplacian 


matrix). 以 第 1 行 与 第 1 列 为 界 , 采用 分 块 矩 阵 表 示 方 式 : W = we |, 
aul wu 
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D = Hý Iu | 则 式 (13.12) 可 重 写 为 


Ouz uu 
ay pT eT Du Owl] |Wu Wu fi | 
EUS) = (fF (ip on | M wal) H (13.13) 
= fy (Du — Wu)fi— 2f W ufi + fE (Duu — Wuu) fu - (13.14) 


由 SAD = 0 可 得 
fu = (Duu — Wau) Wuf. (13.15) 


< 


P =D !w = RE Oru | we lal 


Ow D; Wu Wo 


DW D Wu 
= | E H n : (13.16) 
Diu Wau Da W uu 
即 Puu = DZ’ Wu, Pu = Dp Ww, 则 式 (13.15) 可 重 写 为 
fu = (Du (I — DW ua) Wf 
= (I — Dia Wuu) ‘Dua Wufl 
= (I — Pyu) Pu fi . (13.17) 


于 是 , 将 D, 上 的 标记 信息 作为 fi = (yi; yo;---3 yw) 代入 式 (13.17), 即 可 利用 求 
得 的 fu 对 未 标记 样本 进行 预测 . 

上 面 描述 的 是 一 个 针对 二 分 类 问题 的 标记 传播 (label propagation) 方 法 , 下 
面 来 看 一 个 适用 于 多 分 类 问题 的 标记 传播 方法 [Zhou et al., 2004]. 

假定 y E€ V, HAF Di U D 构建 一 个 图 G = (V,E), RPH A 
E V = {fcz .zi WE E PN YA W 仍 使 用 式 (13.11)， 对 
fA ERE D = diag(di,d2,...,di4u) 的 对 角 元 素 di = DW). 定义 一 
个 (L+ u) x |V| 的 非 负 标记 和 抢 阵 下 = (FI, F7,..., FE T, 其 第 i 行 元 素 
F; = ((F)a, (P)ia2,---,(P)yy)) 为 示例 mi Nei ie, 相应 的 分 类 规则 为: 
yi = arg maxiejs<|yl(F)iy. 


Xf i= 1,2,...,m, j = 1,2,..., |V|, BEF 初始 化 为 
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1, if <i QAM =j); 
F(0) = (Y); = (13.18) 
0, otherwise. 

显然 , Y 的 前 1 行 就 是 1 个 有 标记 样本 的 标记 向 量 . 
基于 W 构造 一 个 标记 传播 矩阵 S = D-2WD-?, 其 中 D-3 = 


diag ( ESNE ae a): 于 是 有 迭代 计算 式 
F(¢+1)=aSF(t)+ (1-a)Y, (13.19) 


其 中 a c (0,1) 为 用 户 指定 的 参数 , 用 于 对 标记 传播 项 SF(t) 与 初始 化 项 六 的 
重要 性 进行 折 中 . 基于 式 (13.19) 友 代 至 收敛 可 得 


F* = lim F(t) = (1 — a) — aS)“ tY, (13.20) 


H F* 可 获得 Dy 中 样本 的 标记 (9141, i+2 -- -o Ditu) FAHR WME] 13.5 所 示 . 


输入 : 有 标记 样本 集 Dı = {(x1, y1), (£2; y2),---, (Œ, yr) }; 
未 标记 样本 和 集 Du = {£141; i42,---,Litus; 
构图 参数 o; 
折 中 参数 a. 
过 程 : 
1: 基于 式 (13.11) 和 参数 o 得 到 W 
2: 基于 W 构造 标记 传播 矩阵 S = D-27WD-?; 
3: 根据 式 (13.18) 初 始 化 F(0); 
4: +t = 0; 
5: repeat 
6: F(t+1)=aSF(t)+(1-—a)yY; 
T t=t-+1 
8: until HARK F* 
9: fori =1+4+1,/42,...,/+udo 
10: yy = arg max) <j<)y)(F*);; 
11: end for 


输出 : 未 标记 样本 的 预测 结果 : 0 = (Gia, +2,- Deu) 
13.5 和 选 代 式 标记 传播 算法 


事实 上 , 图 13.5 的 算法 对 应 于 正则 化 框架 [Zhou et al., 2004] 


【十 让 
min 一 (È (W )ij 


2 
1 1 
了 Ta | 3 |F; — Yill? (13.21) 
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disagreement 亦 称 diver- 
sity. 
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EP u > 0 为 正则 化 参数 . 5 u = 2 时 , 式 (13.21) 的 最 优 解 恰 为 图 13.5 算法 
的 迭代 收敛 解 F*. 

式 (13.21) 右 边 第 二 项 是 迫使 学 得 结果 在 有 标记 样本 上 的 预测 与 真实 标记 
尽 可 能 相同 , 而 第 一 项 则 迫使 相近 样本 具有 相似 的 标记 , 显然 , 它 与 式 (13.12) 都 
是 基于 半 监 督学 习 的 基本 假设 , 不 同 的 是 式 (13.21) 考 虑 离散 的 类 别 标记 , 而 
式 (13.12) 则 是 考虑 输出 连续 值 . 

图 半 监 督学 习 方 法 在 概念 上 相当 清晰 , 且 易 于 通过 对 所 涉 和 矩阵 运算 的 分 析 
来 探索 算法 性 质 . 但 此 类 算法 的 缺陷 也 相当 明显 . 首先 是 在 存储 开销 上 , 若 样 
本 数 为 O(m), 则 算法 中 所 涉及 的 矩阵 规模 为 O(m?), 这 使 得 此 类 算法 很 难 直 接 
处 理 大 规模 数据 ; 另 一 方面 , 由 于 构图 过 程 仅 能 考虑 训练 样本 集 , 难以 判 知 新 样 
本 在 图 中 的 位 置 , 因此 , 在 接收 到 新 样本 时 , 或 是 将 其 加 入 原 数 据 集 对 图 进行 重 
构 并 重新 进行 标记 传播 , 或 是 需 引 入 额外 的 预测 机 制 , 例如 将 D 和 经 标记 传播 
后 得 到 标记 的 D 合并 作为 训练 集 , 另外 训练 一 个 学 习 器 例如 支持 向 量 机 来 对 
新 样本 进行 预测 . 


13.5 基于 分 歧 的 方法 


与 生成 式 方法 、 半 监督 SVM、 图 半 监 督学 习 等 基于 单 学 习 占 利用 未 标记 
数据 不 同 , 基于 分 歧 的 方法 (disagreement-based methods) 使 用 多 学 习 器 , 而 学 
习 器 之 则 的 “分 歧 ”(disagreement) 对 未 标记 数据 的 利用 至 关 重 要 . 

“协同 训练 ”(co-training) [Blum and Mitchell, 1998] 是 此 类 方法 的 重要 
代表 , 它 最 初 是 针对 “多 视图 ”(multi-view) 数 据 设 计 的 , 因此 也 被 看 作 “ 多 视 
图 学 习 ”(multi-view learning) 的 代表 . 在 介绍 协同 训练 之 前 , 我 们 先 看 看 什么 
是 多 视图 数据 . 

在 不 少 现 实 应 用 中 , 一 个 数据 对 象 往往 同时 拥有 多 个 “属性 集 ”(attribute 
set), 每 个 属性 集 就 构成 了 一 个 “视图 ”(view). 例如 对 一 部 电影 来 说 , 它 拥有 
多 个 属性 集 : 图 像 画 面 信 息 所 对 应 的 属性 集 、 声 音信 息 所 对 应 的 属性 集 、 字 幕 
信息 所 对 应 的 属性 集 、 甚 至 网 上 的 宣传 讨论 所 对 应 的 属性 集 等 . 每 个 属性 集 都 
可 看 作 一 个 视图 . 为 简化 讨论 , 暂且 仅 考 虑 图 像 画 面 属性 集 所 构成 的 视图 和 声 
音 属 性 集 所 构成 的 视图 . 于 是 , 一 个 电影 片段 可 表示 为 样本 ((ac', x), y), 其 中 
x’ 是 样本 在 视图 i 中 的 示例 , 即 基 于 该 视图 属性 描述 而 得 的 属性 向 量 , 不 妨 假 
E Lx! 为 图 像 视图 中 的 属性 向 量 , x* 为 声音 视图 中 的 属性 向 量 ; y 是 标记 , 假定 
是 电影 的 类 型 , 例如 “动作 片 ”、“ 爱 情 片 ”等 . ((act, x2), y) 这 样 的 数据 就 是 
多 视图 数据 . 


13.5 ”基于 分 歧 的 方法 


弱 分 类 器 参见 第 BE. 


例如 电影 画面 与 声音 显 
然 不 会 是 条 人 忻 独 立 的 . 


单 视 图 数据 即 仅 有 一 个 
属性 集合 的 常见 数据 . 
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假设 不 同 视图 具有 “ 相 容 性 ”(compatibility), 即 其 所 包含 的 关于 输出 空 
间 2 的 信息 是 一 致 的 : 令 V) 表示 从 图 像 画 面 信息 判别 的 标记 空间 , V? 表示 从 
声音 信息 判别 的 标记 空间 , WA YV = V! = V, 例如 两 者 都 是 { 爱 情 片 ,动作 片 }， 
而 不 能 是 = { 爱 情 片 ,动作 片 } 而 22 = { 文 艺 片 ,惊悚 片 }. 在 此 假设 下 , 显 式 
地 考虑 多 视图 有 很 多 好 处 . 仍 以 电影 为 例 , 未 个 片段 上 有 了 两 人 对 视 , 仅 插 图 像 画 
面 信息 难以 分 辨 其 关 型 , 但 此 时 咎 从 声音 信息 听 到 “我 爱 你 ”, WY A] Dar Hh i2 
片段 很 可 能 属于 “爱情 片 ”; 另 一 方面 , AAR a RUA “oy Re AE 
作 片 ”, 仪 凭 声 音信 息 也 认为 “可 能 是 动作 片 ”, 则 当 两 者 一 起 考虑 时 就 有 很 
大 的 把 握 判 别 为 “动作 片 ”. 显然 , 在 “ 相 容 性 ”基础 上 , 不 同 视图 信息 的 “ 互 
补 性 ”会 给 学 习 嚣 的 构建 带 来 很 多 便利 . 


协同 训练 正 是 很 好 地 利用 了 多 视图 的 “ 相 容 互补 性 ”. 假设 数据 拥有 两 个 
充分 (sufficient) 且 条 件 独 立 视图 “充分 ”是 指 每 个 视图 都 包含 足以 产生 最 优 
学 习 器 的 信息 , “条件 独 六 ” 则 是 指 在 给 定 类 别 标 记 条 件 下 两 个 视图 独立 . 在 
此 情形 下 , 可 用 一 个 简单 的 办 法 来 利用 未 标记 数据 : 首先 在 每 个 视图 上 基于 有 
标记 样本 分 别 训练 出 一 个 分 类 器 , 然后 让 每 个 分 类 器 分 别 去 挑选 自己 “最 有 把 
握 的 ”未 标记 样本 赋予 伪 标 记 , 并 将 伪 标 记 样 本 提供 给 另 一 个 分 类 器 作为 新 
增 的 有 标记 样本 用 于 训练 更 新 …… 这 个 “互相 学 习 、 共 同 进步 ”的 过 程 不 断 
ERIT, 直到 两 个 分 类 器 都 不 再 发 生变 化 , 或 达到 预先 设 定 的 迭代 轮 数 为 目 . 
算法 描述 如 图 13.6 所 示 . 大 在 每 轮 学 习 中 都 考察 分 类 器 在 所 有 未 标记 样本 上 
的 分 类 和 置信 和 度 , 会 有 很 大 的 计算 开销 , 因此 在 算法 中 使 用 了 未 标记 样本 缓冲 池 
[Blum and Mitchell, 1998]. 分 类 置信 大 的 估计 则 因 基 学 习 算 法 e 而 异 , 例如 大 
使 用 朴素 贝 叶 斯 分 类 器 , 则 可 将 后 验 概 率 转化 为 分 类 管 信和 度 ; er EA SC I) E 
BL, 则 可 将 间隔 大 小 转化 为 分 类 置信 和 度 . 


协同 训练 过 程 虽 简单 , 但 令 人 惊讶 的 是 , 理论 证 明显 示 出 , 若 两 个 视图 充分 
且 条 件 独 立 , 则 可 利用 未 标记 样本 通过 协同 训练 将 弱 分 类 器 的 泛 化 性 能 提升 到 
任意 高 [Blum and Mitchell, 1998]. 不 过 , 视图 的 条 件 独 立 性 在 现实 任务 中 通常 
很 难 满 足 , 因此 性 能 提升 幅度 不 会 那么 大 , 但 研究 表明 , 即便 在 更 弱 的 条 件 下 ， 
协同 训练 仍 可 有 效 地 提升 弱 分 类 器 的 性 能 [周志 华 , 2013]. 


协同 训练 算法 本 身 是 为 多 视图 数据 而 设计 的 , 但 此 后 出 现 了 一 些 能 在 单 视 
图 数据 上 使 用 的 变 体 算法 , 它们 或 是 使 用 不 同 的 学 习 算 法 [Goldman and Zhou, 
2000], 或 使 用 不 同 的 数据 采样 [Zhou and Li, 2005b], 甚至 使 用 不 同 的 参数 设置 
[Zhou and Li, 2005a] 来 产生 不 同 的 学 习 器 , 也 能 有 效 地 利用 未 标记 数据 来 提升 
PERE. 后 续 理 论 研究 发 现 , 此 类 算法 事实 上 无 需 数 据 拥 有 多 视图 , 仅 需 弱 学 习 嚣 
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a, 的 上 标 仅 用 于 指 代 两 输入 : 有 标记 样本 集 Di = {((x},x2),y1),.-.-, (xi, 1 yi) 上; 


Am a ™ FT ; 1 E ect ris — yp C 3 
Nk e E 未 标记 样本 集 Day La 3 CF ia ps ee (Bigs Pipu) }; 


n 缓冲 池 大 小 s ; 
a ee 每 轮 挑 选 的 正 例 数 p; 
pn < 5. #6 PEERI Sz PAL n ; 
基 学 习 算 法 L£ 
过 程 : 
1: 从 D, 中 随机 抽取 s 个 样本 构成 缓冲 池 D; 
2) Do = Dy Da 
初始 化 每 个 视图 上 的 有 3: for j = 1,2 do 
are: 4: Di = {(x),ys) | (æ, 22%), vs) € Di}; 
5: end for 
6: for t = 1,2,...,7 do 
T: for j = 1,2 do 
在 视图 j LAA HIH 8: h; — £(D}); 
本 训练 hj. 9: 考察 hj 在 Di = {zi | (x1, x3 t) € Dy} 上 的 分 类 置信 和 度 , 挑选 p 个 正 例 
置信 和 度 最 高 的 样本 Dp C Ds n 个 反例 置信 和 度 最 高 的 样本 Dan C Ds; 
10: 由 Di 生成 伪 标 记 正 例 D37 = {(x7} 7, +1) | x? € D3}; 
11: 由 Di 生成 伪 标 记 反 例 D3-7 = {(zy 7, 一 1) | x? € DI}; 
12: D; = a \ (Dp U Da); 
13: end for 
14: if hy, he 均 未 发 生 改变 then 
15: break 
16: else 
17: for 7 = 1,2 do 
扩充 有 标记 数据 集 . 18: Di = Dİ U (Di UD ); 
19: end for 


20: 从 Da 中 随机 抽取 2p + 2n 个 样本 加 入 Ds 
21: end if 
22: end for 


输出 : 分 类 器 hi, ho 
13.6 协同 训练 算法 


heey ake) 之 间 具 有 显著 的 分 歧 ( 或 差异 ), 即 可 通过 相互 提供 伪 标 记 样本 的 方式 来 提升 泛 
化 性 能 [周志 华 , 2013]; 不 同 视图 、 不 同 算法 、 不 同 数据 采样 、 不 同 参数 设置 
等 , 都 仅 是 产生 差异 的 渠道 , 而 非 必 备 条 件 . 


基于 分 上 的 方法 只 需 采 用 合适 的 基 学 习 涡 , 就 能 较 少 受到 模型 假设 、 损 失 
函数 非 吓 性 和 数据 规模 问题 的 影响 , 学 习 方 法 简单 有 效 、 理 论 基础 相对 坚实 、 
适用 范围 较为 广泛 . 为 了 使 用 此 类 方法 , 需 能 生成 具有 显著 分 上 疏 、 性 能 尚 可 的 
BP Fala, 但 当 有 标记 样本 很 少 , 尤其 是 数据 不 具有 多 视图 时 , 要 做 到 这 一 点 
并 不 容易 , 需 有 巧妙 的 设计 . 


13.6 ” 半 监 督 聚 类 


HL 10.6 F. 


WE k AM RR. 


更 新 均值 向 量 . 
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13.6 半 监 督 聚 类 

聚 类 是 一 种 典型 的 无 监督 学 习 任 务 , 然而 在 现实 聚 类 任务 中 我 们 往往 能 : 
得 一 些 额 外 的 监督 信息 , 于 是 可 通过 半 监 督 聚 类 (semi-supervised clustering) 来 
利用 监督 信息 以 获得 更 好 的 聚 尖 效果 . 

聚 尖 任务 中 获得 的 监督 信息 大 致 有 两 种 类 型 . 第 一 种 类 型 是 “ 必 连 ” 
(must-link) 与 “ 幻 连 ” (cannot-link) AOR, 前 者 是 指 样本 必 属 于 同一 个 簇 , 后 
者 是 指 样本 必 不 属于 同一 个 铸 ; 第 二 种 类 型 的 监督 信息 则 是 少量 的 有 标记 样本 . 

约束 天 均值 (Constrained k-means) 算法 [Wagstaff et al., 2001] 是 利用 第 
一 类 监督 信息 的 代表 . 给 定 样本 集 D = {£1, £2,..., £m} WR “DE” KA 


输入 : ERE D = {21, Ta, . + Emt; 


必 连 约束 集合 M ; 
FERGAL ke 
过 程 : 
1: 从 DD 中 随机 选取 上 个 样本 作为 初始 均值 同 量 {j1, pro, ..., Me}; 
2: repeat 
3: C,;=@8(1<sj7< k); 
A: for i—1,2,...,mdo 
5: 计算 样本 zi SRI yp; (1 <j <k) 的 距离 : di; = |æ; 一 alla ; 
6: = {1l2 .kh 
T: is_merged—false; 
8: while — is_merged do 
9: 基于 天 找 出 与 样本 rz ESRI: r= arg minjex di; ; 
10: ASEM AG oc, MIA RRA C, 是 否 会 违背 M 与 C 中 的 约束 ; 
11: if ~ is_voilated then 
12: Cr =Cel We 
13: is.merged=true 
14: else 
15: K=K\{r}; 
16: if K = ø then 
17: break 并 返回 错误 提示 
18: end if 
19: end if 
20: end while 


21: end for 

22: for 7 = 1,2,..., k do 
23: Hi = TET press ms 
24: end for 

25: until 均值 回 量 均 未 更 新 
输出 : 簇 划 分 {C1,Co2,...,Ce} 


图 13.7 约束 天 均值 算法 


308 第 13 章 半 监 督学 习 


REMA “WIE” KRARAC, (xxj) E M 表示 zi 5 mi DART AR, 
均值 算法 见 9.4.1 节 . (xi, xj) EC 表示 zi 与 mi DPBS. 该 算法 是 上 均值 算法 的 扩展 , CER 
类 过 程 中 要 确保 Ad 与 C 中 的 约束 得 以 满足 , 否则 将 返回 错误 提示 , 算法 如 图 
13.7 PAS. 
JL p.202 表 9.1. 以 西瓜 数据 集 4.0 为 例 , SPEAR rz4 与 £as, £12 与 x20, M14 与 x17 ZAFE 
必 连 约束 , we 与 201, 213 与 £23, X19 与 za23 Z BJF EJER, BH 


M = {(x4, £25), (£25, 24) (12, L20), (X20, L12), (L14, £17), (£17, £14) }, 


C = { (£2, £21), (£21, £2), (L13; T23), (L23; T13); (L19, L23), (L23, Lig) }- 


RRR k = 3, 随机 选取 样本 xe, 212, x27 作为 初始 均值 癌 量 , 图 13.8 


wr O.2 1.3 ü.4 0.5 T aT 0.8 1.9 D. | 0.2 | We: Od 5 : ze D7 0.8 0.9 
密度 密度 
(a) 第 1 轮 和 迭代 后 (b) 第 2 HARS 


i.i 1.2 0.3 m4 0.5 0.6 0.7 LS 1.9 fa Uz 0.3 i4 LT Fs 7 1.7 ILN w9 
密度 密度 
(c) 第 3 轮 迁 代 后 (d) 第 4 轮 选 代 后 
13.8 西瓜 数据 集 4.0 LHR k HMR (k = 3) 在 各 轮 迁 代 后 的 结果 . 样本 点 与 


均值 向 量 分 别 用 “@” 与 “4+” 表示 , 必 连 约束 和 和 勿 连 约束 分 别 用 实 线 段 与 虚线 段 表 示 , 红 
色 ge RE a th FERRIS. 
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此 处 样本 标记 指 猴 标 
记 (cluster label), 不 是 类 别 
标记 (class label). 


ScD, |SS| <|DI. 


FA Ay ARI Aitei 
中 心 ， 


用 有 标记 样本 初始 化 天 


A» 5 


更 新 均值 向 量 . 


309 


显示 出 约束 大 均值 算法 在 不 同 迭 代 轮 数 后 的 聚 类 结果 . 经 5 轮 友 代 后 均值 癌 量 
不 再 发 生变 化 (与 第 4 轮 友 代 相 同 ), 于 是 得 到 最 终 聚 类 结果 


Ci = {£3, £5, £7, T9, 213, £14, £16, £17, £21}; 
Ca = {£6, T8, %10; £11, T12, T15, T18, Lig, Lao}; 


C3 = {z1， 2,04, 099, 033,094, 095, T26; £97, T28, T29, £30}. 


第 二 种 监督 信息 是 少量 有 标记 样本 . 给 定 样 本 集 D = {zi1, %2,..., Em}, 
假定 少量 的 有 标记 样本 为 5S = E S;CD,HtS;ASDSAREBTA 7 THR 
KERESE. 这 样 的 监督 信息 利用 起 来 很 容易 : 直接 将 它们 作为 “种 子 ”, 用 
它们 初始 化 上 均值 算法 的 上 个 诊 类 中 心 , IPF BERR RIA ore PA ee 
变种 子 样本 的 艇 隶属 关系 . 这 样 就 得 到 了 约束 种 子 上 均值 (Constrained Seed 
k-means) 算法 [Basu et al., 2002], 其 算法 摘 述 如 图 13.9 Aras. 


输入 : PEARSE D = {£1; a2)... Emh 
少量 有 标记 样本 S = UF S; ; 
FERRE k 

过 程 : 

1: for j = 1,2,..., k do 

2: Hi = ST Dees, T 

3: end for 

4: repeat 

5: C;=Ø(1<4< k); 

6: for j = 1,2,..., k do 

T: for all x € 5; do 

8: Ci = C; Uix} 

9: end for 

10: end for 

11: for all x; € D \ S do 

12: 计算 样本 zi SRI pw; (1 <j <k) 的 距离 : qdi; = |æ; 一 elle ; 

13: 找 出 与 样本 a, EARKI: r= arg miniet... kl dij ; 

14: 将 样本 ac, 划 入 相应 的 簇 : Cr = Cr Ufa} 

15: end for 

16: for 7 = 1,2,..., k do 

17: Hi = T&T SEO; ey 

18: end for 

19: until 均值 癌 量 均 未 更 新 

输出 : PERS {C1, C2,..., Cr} 


图 13.9 约束 种 子玉 均值 算法 
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仍 以 西瓜 数据 集 4.0 为 例 , 假定 作为 种 子 的 有 标记 样本 为 
S1 = {£4, t25}, So = {£12, To0}, S3 = {£14, F17}. 


以 这 三 组 种 子 样本 的 平均 向 量 作 为 初始 均值 向 量 , 图 13.10 显示 出 约束 种 子 k 
均值 算法 在 不 同 迭 代 轮 数 后 的 聚 类 结果 . 经 4 EUAN RES 
化 (与 第 3 HARHA), 于 是 得 到 最 终 聚 类 结果 

Cy = {zl £2, L4, L22, T23, L24, T25, T26, L27, T28, T29, L30}; 


Co = {£6, £7, £8, £10, T11, T12, £15, Lig, T19, Lao}; 


C3 = {£3, £5, T9, £13, 214, Lig, T17, T21}. 


Do 0.7 0.8 0.9 0.1 U.Z | 1.4 LS U. W7 U8 uo 


密度 | 密度 
(a) 第 1 轮 和 迭代 后 


il 
O.1 OZ t.3 m4 


0.6 U7 T 0.8 4.1 D.Z 0.3 0.4 5 0.6 0.7 uS 0.9 


i l 0.2 (3 0.4 i LI Res 
密度 密度 
(c) 第 3 轮 选 代 后 (d) 第 4 轮 和 迭代 后 


图 13.10 西瓜 数据 集 4.0 上 约束 种 子 及 均值 算法 (k = 3) 在 各 轮 选 代 后 的 结果 . 样本 
点 与 均值 向 量 分 别 用 "“e@” 与 “二 ”表示 , 种 子 样本 点 为 红色 , 红色 虚线 显示 出 徐 划 分 . 


13.7 ”阅读 材料 


上 近邻 图 和 近邻 图 参 
见 10.5.1 节 ， 


许多 集成 学 习 研 究 者 认 
A: 只 要 能 使 用 多 个 学 习 
器 即 可 将 能 学 习 器 性 能 提 
升 到 极 高 , 无 须 使 用 未 标 
记 样 本 ; 许多 半 监 督学 习 
研究 者 认为 : 只 要 能 使 用 
未 标记 样本 即 可 将 能 学 习 
器 性 能 提升 到 极 高 ,无 须 
使 用 多 等 习 器 ， 但 这 两 种 
看 法 都 有 其 局 限 . 
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13.7 阅读 材料 


半 监 督学 习 的 研究 一 般 认 为 始 于 [Shahshahani and Landgrebe, 1994], 该 
领域 在 二 十 世纪 末 、 二 十 一 世纪 初 随 痢 现实 应 用 中 利用 未 标记 数据 的 巨大 需 
求 涌现 而 鞍 勃 发 展 . 国际 机 器 学 习 大 会 (ICML) 从 2008 年 开始 评选 “十 年 最 佳 
论文 ”, 在 短 短 6 年 中 , 半 监 督学 习 四 大 范 型 (paradigm) 中 基于 分 此 的 方法 、 
半 监 督 SVM、 图 半 监 督学 习 的 代表 性 工作 先后 于 2008 年 [Blum and Mitchell, 
1998]. 2009 年 [Joachims, 1999]. 2013 年 [Zhu et al., 2003] 获奖 . 


生成 式 半 监督 学 习 方 法 出 现 最 早 [Shahshahani and Landgrebe, 1994]. 由 
于 需 有 充分 可 靠 的 领域 知识 才能 确保 模型 假设 不 至 于 太 坏 , 因此 该 范 型 后 来 主 
要 是 在 具体 的 应 用 领域 加 以 研究 . 

半 监 督 SVM 的 目标 函数 非 同 ,有 不 少 工 作 致 力 于 减轻 非 凸 性 造成 的 不 
利 影响 , 例如 使 用 连续 统 (continuation) 方 法 , 从 优化 一 个 简单 的 是 目标 函数 开 

台 , 逐步 变形 为 非 凸 的 S3VM 目标 函数 [Chapelle et al., 2006al; 使 用 确定 性 退 
火 (deterministic annealing) 过 程 , 将 非 凸 问题 转化 为 一 系列 凸 优化 问题 , 然后 
由 易 到 难 地 顺序 求解 [Sindhwani et al., 2006]; 利用 CCCP 方法 优化 非 凸 函数 
[Collobert et al., 2006] 等 :. 

最 早 的 图 半 监 督学 习 方 法 [Blum and Chawla, 2001] 直接 基于 聚 类 假设 ， 
将 尝 习 目标 看 作 找 出 图 的 最 小 割 (mincut). 对 此 类 方法 来 说 , 图 的 质量 极为 重 
要 , 13.4 末 的 高 斯 距离 图 以 及 天 近邻 图 、 < 近邻 图 都 较为 利用 , 此 外 已 有 一 些 
关于 构图 的 研究 [Wang and Zhang, 2006; Jebara et al., 2009], 基于 图 核 (graph 
kernel) 的 方法 也 与 此 有 密切 联系 [Chapelle et al., 2003). 

基于 分 上 监 的 方法 起 源 于 协同 训练 , 最 初 设计 是 仅 选 取 一 个 学 习 器 用 于 预测 
[Blum and Mitchell, 1998]. 三 体 训练 (tri-training) 使 用 三 个 学 习 器 , 通过 “人 少 
数 服从 多 数 ” 来 产生 伪 标 记 样 本 , 并 将 和 学习 器 进行 集成 [Zhou and Li, 2005b]. 
后 续 研 究 进一步 显示 出 将 学 习 器 集成 起 来 更 有 助 于 性 能 提升 , 并 出 现 了 使 用 更 
多 学 习 医 的 方法 . 更 为 重要 的 是 , 这 将 集成 学 习 与 半 监 督学 习 这 两 个 长 期 独立 
发 展 的 领域 联系 起 来 [Zhou, 2009]. 此 外 ,这些 方法 能 容易 地 用 于 多 视图 数据 ， 
并 可 目 然 地 与 主动 学习 进行 结合 [周志 华 , 2013). 

[Belkin et al., 2006] 在 半 监 督学 习 中 提出 了 流 形 正 则 化 (manifold regular- 
ization) 框 架 , 直接 基于 局 部 光滑 性 假设 对 定义 在 有 标记 样本 上 的 损失 函数 进行 
正则 化 , 使 学 得 的 预测 函数 具有 局 部 光滑 性 . 

半 监 督学 习 在 利用 未 标记 样本 后 并 非 必 然 提升 泛 化 性 能 , 在 有 些 情形 下 其 
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这 里 的 “安全 ”是 指 利 
用 未 标记 样本 后 ,能 确保 
泛 尼 性 能 至 上 少 不 差 于 仅 利 
用 有 标记 样本 . 
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至 会 导致 性 能 下 降 . 对 生成 式 方法 , 其 成 因 被 认为 是 模型 假设 不 准确 [Cozman 
and Cohen, 2002], 因此 和 需 依 赖 充分 可 靠 的 领域 知识 来 设计 模型 . 对 半 监 督 
SVM, 其 成 因 被 认为 是 训练 数据 中 存在 多 个 “ 低 密 度 划 分 ”, 而 学 习 算 法 有 可 
能 做 出 不 利 的 选择 ; S4VM [Li and Zhou, 2015] 通过 优化 最 坏 情 形 性 能 来 综合 
利用 多 个 低 密度 划分 , 提升 了 此 类 技术 的 安全 性 . 更 一 般 的 “安全 ”(safe) 半 监 
督学 习 仍 是 一 个 未 决 问题 . 

本 章 主要 介绍 了 半 监 督 分 类 和 上 案 类 , 但 半 监 督学 习 已 普遍 用 于 各 类 机 器 学 
习 任 务 , 例如 在 半 监 督 回归 [Zhou and Li, 2005a|、 降 维 [Zhang et al., 2007] 等 
方面 都 有 相关 研究 . 更 多 关于 半 监 督学 习 的 内 容 可 参见 [Chapelle et al., 2006b; 
Zhu, 2006], [Zhou and Li, 2010; 周志 华 , 2013] 专门 介绍 了 基于 分 上 监 的 方法 . 
[Settles, 2009] 是 一 个 天 于 主动 学 习 的 介绍 . 
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UCI 数据 集 见 13.4 
http: / /archive.ics.uci.edu/ml/. 
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试 推导 出 式 (13.5)~(13.8). 
试 基 于 朴素 贝 叶 斯 模型 推导 出 生成 式 半 监 督学 习 算 法 . 


假设 数据 由 刘 合 专家 (mixture of experts) 模 型 生成 , 即 数据 是 基于 大 
个 成 分 混合 而 得 的 概率 密度 生成 : 


k 
p(x | 0) = X a;i- p(x | 0:) , (13.22) 
= 1 


其 中 8 = {01, 02,... ,Ox} 是 模型 参数 , p(x | 0:) 是 第 i 个 混合 成 分 的 
概率 密度 , 混合 系数 ai > 0, 和 ”ai = 1. 假设 每 个 混合 成 分 对 应 一 
个 类 别 , 但 每 个 类 别 可 包含 多 个 混合 成 分 . 试 推导 相应 的 生成 式 半 监 
督学 习 算法 . 

从 网 上 下 载 或 自己 编程 实现 TSVM 算法 , 选择 两 个 UCI 数据 集 , 将 其 
中 30% 的 样 例 用 作 测 斌 样本, 10% 的 样 例 用 作 有 标记 样本 , 60% 的 样 
例 用 作 无 标记 样本 , 分 别 训 练 出 利用 无 标记 样本 的 工 SVM 以 及 仅 利 
用 有 标记 样本 的 SVM, 并 比较 其 性 能 . 

对 未 标记 样本 进行 标记 指派 与 调整 的 过 程 中 有 可 能 出 现 类 别 不 平衡 
问题 , 试 给 出 考虑 该 问题 后 的 改进 TSVM 算法 . 

TSVM 对 未 标记 样本 进行 标记 指派 与 调整 的 过 程 涉及 很 大 的 计算 开 
销 , 试 设计 一 个 高 效 的 改进 算法 . 

试 设计 一 个 能 对 新 样本 进行 分 类 的 图 半 监 督学 习 方 法 . 

自 训练 (self-training) 是 一 种 比较 原始 的 半 监 督学 习 方 法 : 它 先 在 有 标 
记 样 本 上 学 习 , 然后 用 学 得 分 类 器 对 未 标记 样本 进行 判别 以 获得 其 伪 
标记 , 再 在 有 标记 与 伪 标 记 样 本 的 合集 上 重新 训练 , 如 此 反复 . WHT 
方法 有 何人 缺陷 . 

给 定 一 个 数据 集 , 假设 其 属性 集 包 含 两 个 视图 , 但 事先 并 不 知道 哪些 
属性 属于 哪个 视图 , 试 设计 一 个 算法 将 这 两 个 视图 分 离 出 来 . 

试 为 图 13.7 算法 的 第 10 行 与 出 违约 检测 算法 (用 于 检测 是 理 有 约束 
RIRIA ). 
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休息 一 会 儿 


传统 的 德国 大 学 中 一 个 
系 只 有 一 位 “教授 ”， 相 
当 于 系 主 任 ， 高 斯 长 期 担 
任 哥 延 根 大 学 数学 教授 ， 
1855 年 他 去 世 后 由 狄 利 克 
雷 接 任 . 


7 个 千 禧 年 数学 难题 中 ， 
已 被 证 明 的 “ 庞 加 莱 猜 
想 ” 直 接 与 流 形 有 关 : 4 
何 一 个 单 连 通 、 闭 的 三 维 
流 形 一 定 同 脖 于 一 个 三 维 
球面 ， 
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using Gaussian fields and harmonic functions.” In Proceedings of the 20th 
International Conference on Machine Learning (ICML), 912—919, Washing- 
ton, DC. 


小 故事 : 流 形 与 伯 恩 哈 德 。 黎 曼 

“ 流 形 ”(manifold) 这 个 名 字源 于 德语 Mannig- 
faltigkeit, 是 伟大 的 德国 数学 家 伯 恩 哈 德 。 黎 曼 (Bernhard 
Riemann, 1826—1866) 提出 的 , 其 译名 则 是 我 国 拓 扑 学 莫 
基 人 江 泽 涵 先生 借鉴 文天祥 《正气 歌 》 “天 地 有 正气 , BR 
赋 流 形 ” 而 来 , 可 能 是 由 于 光滑 流 形 恰 与 “ 气 ” 相 似 , 整体 
上 看 可 流动 、 变 形 . 

黎 曼 出 生 于 德国 汉诺威 的 布 列 斯 伦 忒 (Breselenz), 幼年 时 就 展现 出 惊人 的 
RF AIK. 1846 年 父亲 送 他 到 哥 廷 根 大 学 攻读 神学 , 在 旁听 了 高 斯 关于 最 小 二 
乘法 的 讲座 后 , 他 决定 转 攻 数学 , 并 在 高 斯 指导 下 于 1851 年 获 博士 学 位 . 期 间 
有 两 年 他 在 柏林 大 学 学 习 , 受到 了 雅 可 比 、 狄 利克 雷 等 大 数学 家 的 影响 . 1853 
年 , 高 斯 让 黎 曼 在 几何 学 基础 方面 准备 一 个 报告 ， 以 便 取 得 哥 廷 根 大 学 的 教 职 ; 
1854 F, 黎 曼 做 了 “ 论 作 为 几何 基础 的 假设 ”的 著名 演讲 , 这 个 报告 开创 了 黎 
SL, 提出 了 黎 曼 积分 , 并 首次 使 用 了 Mannigfaltigkeit 这 个 词 . 此 后 黎 曼 一 
直 在 哥 廷 根 大 学 任教 , 并 在 1859 年 接替 去 世 的 狄 利克 雷 担 任 数 学 教授 . 

黎 曼 是 黎 曼 几何 的 创立 者 、 复 变 函 数论 的 黄 基 人 , 并 对 微 积 分 、 解 析 数 
论 、 组 合 拓 扑 、 代 数 几 何 、 数 学 物理 方法 均 做 出 了 开创 性 贡献 , 他 的 工作 直接 
影响 了 近 百 年 数学 的 发 展 , 许多 杰出 的 数学 家 前 赴 后 继 地 努力 论证 黎 曼 断言 过 
的 定理 . 1900 年 希 尔 伯 特 列 出 的 23 个 世纪 数学 问题 与 2000 年 美国 克 雷 数学 研 
究 所 列 出 的 了 7 个 千 禧 年 数学 难题 中 , 有 一 个 问题 是 相同 的 , 这 就 是 黎 曼 1859 年 
因 当 选 院士 而 提交 给 柏林 科学 院 的 文章 中 提出 的 “ 黎 曼 猜想 ”. KEK FRE 
C 函数 非 平 凡 零 点 的 猜想 . 目前 已 有 不 同 数学 分 支 的 千 余 个 数学 命题 以 歼 曼 猜 
想 为 前 提 , 着 黎 曼 猜 想 正确 , 它们 将 全 部 升格 为 定理 . 一 个 猜想 联系 了 如 此 多 不 
同 数学 分 支 、 如 此 多 命题 , 在 数学 史上 是 极为 罕见 的 , 因此 它 被 公认 为 当前 最 
重要 的 数学 难题 . 


基于 学 习 器 进行 预测 ， 
4s to FR FE eC FEP. ARB. FR 
ar fe SF] —P RAGS 
为 好 瓜 就 是 在 做 推断 ; 但 
推断 远 超 出 预测 范畴 ， 例 
如 在 吃 到 一 个 不 见 根 蒂 的 
RA, “RRA” # 
fe FLFR a Og AK ASE EET. 


若 变量 间 存 在 显 式 的 因 
果 关 系 , 则 第 使 用 贝 叶 斯 
网 ; 车 变量 间 存 在 相关 性 ， 
但 难以 获得 显 式 的 因果 关 
A, 则 常 使 用 蕊 尔 可 夫 网 . 


静态 贝 叶 斯 网 参见 7.5 
F. 


A1% ”概率 图 模型 


14.1 隐 马 尔 可 夫 模 型 


机 器 学 习 最 重要 的 任务 , 是 根据 一 些 已 观 罕 到 的 证 据 ( 例 如 训练 样本 ) 来 
对 感 兴趣 的 未 知 变量 (例如 类 别 标记 ) 进 行 估 计 和 推测 . 概率 模型 (probabilistic 
model) 提 供 了 一 种 描述 框架 , 将 学 习 任务 归结 于 计算 变量 的 概率 分 布 . 在 概 
率 模型 中 , 利用 已 知 变量 推测 未 知 变量 的 分 布 称 为 “ 推 新 ”(inference)， 其 
核心 是 如 何 基 于 可 观测 变量 推测 出 未 知 变量 的 条 件 分 布 . 具体 来 说 , 假定 所 
天 心 的 变量 集合 为 Y, 可 观测 变量 集合 为 O, 其 他 变量 的 集合 为 R, “生成 
式 ”(generative) 模 型 考虑 联合 分 布 P(Y,R,O), “Flee” (discriminative) fe 
型 考虑 条 件 分 布 P(Y,R|O). 给 定 一 组 观测 变量 值 , 推断 就 是 要 由 P(Y, R, O) 
或 P(Y, R | O) 得 到 条 件 概 率 分 布 P(Y |O). 

直接 利用 概率 求 和 规则 消去 变量 R 显然 不 可 行 , 因为 即便 每 个 变量 仪 有 两 
种 取 值 的 简单 问题 , 其 复杂 度 已 至 少 是 O(27 IF). 另 一 方面 , 属性 变量 之 间 往 
往 存 在 复杂 的 联系 , 因此 概率 模型 的 学 习 , 即 基于 训练 样本 来 估计 变量 分 布 的 
参数 往往 相当 困难 . 为 了 便于 研究 高 效 的 推断 和 学 习 算 法 , 需 有 一 套 能 简 清 紧 
竣 地 表达 变量 则 关系 的 工具 . 

概率 图 模型 (probabilistic graphical model) 是 一 类 用 图 来 表达 变量 相关 天 
系 的 概率 模型 . 它 以 图 为 表示 工具 , 最 常见 的 是 用 一 个 结 点 表示 一 个 或 一 组 
随机 变量 , 结 点 之 间 的 边 表 示 变 量 间 的 概率 相关 关系 , 即 “ 变 量 关 系 图 ”. 根 
据 边 的 性 质 不 同 , 概率 图 模型 可 大 致 分 为 两 类 : 第 一 类 是 使 用 有 癌 无 环 图 表 
示 秋 量 则 的 依赖 关系, 称 为 有 同 图 模型 或 由 叶 斯 网 (Bayesian network); 第 二 类 
是 使 用 无 回 图 表示 变量 间 的 相关 关系 , 称 为 无 向 图 模型 或 马尔 可 夫 网 (Markov 
network). 

BIRA RAA (Hidden Markov Model, 简称 HMM) 是 结构 最 简单 的 动态 
贝 叶 斯 网 (dynamic Bayesian network), 这 是 一 种 著名 的 有 问 图 模型 , 主要 用 于 
时 序数 据 建 模 , 在 语音 识别 、 目 然 语 言 处 理 等 领域 有 广泛 应 用 . 

如 图 14.1 Pras, 隐 马 尔 可 夫 模 型 中 的 变量 可 分 为 两 组 . 第 一 组 是 状态 变量 
{yi1,y2,---, Yn}, 其 中 yi E 站 表示 第 i 时 刻 的 系统 状态 . 通常 假定 状态 变量 是 隐 
藏 的 、 不 可 被 观测 的 , PSC RAS EB J ork BS AE Bt (hidden variable). 第 二 组 是 观 
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所 谓 “ 现 在 决定 未 来 ”， 
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一 -一 Un | 


14.1 隐 马 尔 可 夫 模 型 的 图 结构 


训 变 量 {zl,z2,...,znj, 其 中 zi E X 表示 第 i 时 刻 的 观测 值 . 在 隐 马 尔 可 夫 模 
型 中 , 系统 通常 在 多 个 状态 {s1, s2,...,sN} 之 间 转 换 , 因此 状态 变量 的 取 值 
范围 2 ( 称 为 状态 空间 ) 通 常 是 有 六 个 可 能 取 值 的 离散 空间 . 观测 变量 x; 可 以 
是 离散 型 也 可 以 是 连续 型 , 为 便于 讨论 , 我 们 仅 考虑 离散 型 观测 变量 , 并 假定 其 
取 值 范围 X 为 {01,02,..., 0M}. 

14.1 中 的 箭头 表示 了 变量 间 的 依赖 和 关系. 在 任 一 时 刻 , 观测 变量 的 取 值 
仅 依 赖 于 状态 变量 , Ba, 由 yi 确定 , 与 其 他 状态 变量 及 观测 变量 的 取 值 无 关 . 
同时 , t 时 刻 的 状态 y 仅 依 赖 于 t 一 1 时 刻 的 状态 yei, 与 此 前 t 一 2 个 状态 无 
KR. REPT “SR By AEE” (Markov chain), 即 : 系统 下 一 时 刻 的 状态 仪 
由 当前 状态 决定 , 不 依赖 于 以 往 的 任何 状态 . 基于 这 种 依赖 关系 , 所 有 变量 的 联 


TL 
P(21,y1,---;2n, Yn) = P(y)P(a1 lw) TP Pm | P|). CED 
i=2 


除了 结构 信息 , AE Aa RA RRR m A FHAS: 


© 状态 转移 概率 : 模型 在 各 个 状态 间 转 换 的 概率 , 通常 记 为 矩阵 A = 
[ai NxN, 其 中 


Qij = P(Yt+1 = Sj | Yt = Si) , ISi SN, 


表示 在 任 总 时 刻 t, FRSA si, 则 在 下 一 时 刻 状态 为 s; 的 概率 . 


e 输出 观测 概率 : 模型 根据 当前 状态 获得 各 个 观测 值 的 概率 , 通 币 记 为 矩阵 
B= [bij] NxM, 其 中 


bj; = P(t = 0; | ve = 8i) , lez , laze uM 


表示 在 任意 时 刻 t, FRSA si 则 观测 值 oj 被 获取 的 概率 . 
。 初始 状态 概率 : 模型 在 初始 时 刻 各 状态 出 现 的 概率 , 通常 记 为 "+ = 


144.1 隐 马 尔 可 夫 模 型 
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(71,72,-..,7N), 其 中 
m=P(iy=s:), 1<i<N 
表示 模型 的 初始 状态 为 si 的 概率 . 


通过 指定 状态 空间 YY、 观 测 空 间 ve 和 上 述 三 组 参数 , 就 能 确定 一 个 隐 有 马尔 
可 夫 模 型 , 通常 用 其 参数 入 = (A,B, n] 来 指 代 . 给 定 隐 马尔 可 夫 模 型 和 , 它 按 如 
下 过 程 产生 观测 序列 {Z1， vi PEREEE Wat: 


(1) 设置 t= 1, 并 根据 初始 状态 概率 m 选择 初始 状态 1; 

(2) 根据 状态 y 和 输出 观测 概率 B 选择 观测 变量 取 值 rt; 

(3) 根据 状态 ye 和 状态 转移 矩阵 A 转移 模型 状态 , 即 确定 yess; 
(4) E t< n, 设置 +=t 十 1, 并 转 到 第 (2) 步 , 否则 停止. 


其 中 ye E {81, 52,...,5n} FI xi E {01,02,... ,ov 分别 为 第 上 时 刻 的 状态 和 观 
测 值 . 


在 实际 应 用 中 , 人 们 第 关注 隐 马 尔 可 夫 模 型 的 三 个 基本 问题 : 


e ERE A = [A,B x], 如 何 有 效 计 算 其 产生 观测 序列 区 = 
{%1,%2,..-.,%n} 的 概率 P(x | 入) ? 换言之 , 如 何 评估 模型 与 观测 序列 
之 同 的 匹配 程度 ? 

e 给 定 模型 A = [A, B, 7n] 和 观测 序列 x = {21,20,...,¢n}, 如 何 找到 与 此 
观测 序列 最 匹配 的 状态 序列 y = fyi, ya, ? RE LL, 如 何 根据 观测 
序列 推断 出 际 闫 的 模型 状态 ? 


e 给 定 观 测序 列 x = {fzl,za,.. ,2znl 如 何 调整 模型 参数 入 = [A, B, m] 使 
FIBRE A A LA BR P(x | A) 最 大 ? PR, 如 何 训练 模型 使 其 能 最 好 地 
摘 述 观测 数据 ? 


上 述 问 题 在 现实 应 用 中 非常 重要 . 例如 许多 任务 需 根 据 以 往 的 观测 序列 
{@1,22,--.,%n—1} 来 推测 当前 时 刻 最 有 可 能 的 观测 值 sn, 这 显然 可 转化 为 求 取 
概率 P(x | A), 即 上 述 第 一 个 问题 ; 在 语音 识别 等 任务 中 , 观测 值 为 语音 信号 ， 
隐藏 状态 为 文字 , 目标 就 是 根据 观测 信号 来 推断 最 有 可 能 的 状态 序列 ( 即 对 应 
的 文字 ), 即 上 述 第 二 个 问题 ; 在 大 多 数 现实 应 用 中 , 人 工 指定 模型 参数 已 变 得 
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越 来 越 不 可 行 , 如 何 根据 训练 样本 学 得 最 优 的 模型 参数 , 恰 是 上 述 第 三 个 问题 . 
值得 庆幸 的 是 , 基于 式 (14.1) 的 条 件 独立 性 , 隐 马 尔 可 夫 模 型 的 这 三 个 问题 均 能 


14.2 马尔 可 夫 随 机 场 


马尔 可 夫 随 机 场 (Markov Random Field, 简称 MRF) 是 典型 的 马尔 可 夫 网 ， 
这 是 一 种 闭 名 的 无 加 图 模型 . 图 中 每 个 结 点 表示 一 个 或 一 组 变量 , SR IBD 
的 边 表 示 两 个 变量 之 间 的 依赖 关系 . 马尔 可 夫 随 机 场 有 一 组 势 函 数 (potential 
functions), JRR “AIT” (factor), 这 是 定义 在 变量 子 集 上 的 非 负 实 函 数 , 主要 

图 14.2 显示 出 一 个 笛 单 的 马尔 可 夫 随 机 场 . WPA PSP PR, E 
其 中 任意 两 结 点 间 都 有 边 连 接 , WR IRA PRA “TA” (clique). 知 在 一 
个 团 中 加 入 另外 任何 一 个 结 点 都 不 再 形成 团 , 则 称 该 团 为 “ 极 大 团 ”(maximal 
clique); 换言之 , 极 大 团 就 是 不 能 被 其 他 团 所 包含 的 团 . 例如 , 在 图 14.2 中 ， 
{21,22}, {71,23}, {£2, £a}, {2,25}, {Z2, te}, {73,25}, 125, Le} 和 {22, 25, £6} 
都 是 团 , 并 且 除了 {x2,z5}, {22, 26} 和 {zs, ze} 之 外 都 是 极 大 团 ; 但 是 , 因为 ra 
和 za 之 间 缺 乏 连 接 , {zx1, x2, r3} 并 不 构成 团 . 显然 , 每 个 结 点 全 少 出 现在 一 个 


极 大 团 中 . 


a 
= 


@) O ` S 
a id 


图 14.2 一 个 简单 的 马尔 可 夫 随 机 场 


在 马尔 可 夫 随 机 场 中 ,多 个 变量 之 间 的 联合 概率 分 布 能 基于 团 分 解 
为 多 个 因子 的 乘积 , 每 个 因子 仅 与 一 个 团 相 关 . 具体 来 说 , 对 于 nn 个 变量 
x = {ZX1; XT2,... ;Tn}, 所 有 团 构成 的 集合 为 C, 与 团 @ eC 对 应 的 变量 集合 记 为 
xq, 则 联合 概率 P(x) 定义 为 


P(x) = = Twocee) ， (14.2) 
QEC 


其 中 we 为 与 团 @ XT DAY A ek Be, 用 于 对 团 @ 中 的 变量 关系 进行 建 模 , Z = 


14.2 马尔 可 去 随机 场 
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Dx TIocc we(xe) 为 规范 化 因子 , 以 确保 P(x) 是 被 正确 定义 的 概率 . 在 实际 
应 用 中 , 精确 计算 Z 通常 很 困难 , 但 许多 任务 往往 并 不 需 获 得 2 的 精确 值 . 

WA, 奢 变 量 个 数 较 多 , 则 团 的 数目 将 会 很 多 (例如 , 所 有 相互 连接 的 两 个 
变量 都 会 构成 团 ), 这 就 意味 着 式 (14.2) 会 有 很 多 乘积 项 , 显然 会 给 计算 带 来 负 
H. 注意 到 者 团 @ 不 是 极 大 团 , 则 它 必 被 一 个 极 大 团 Q* PAG, Bl xg C xg; 
这 意味 着 变 量 xg 之 间 的 关系 不 仅 体 现在 势 函 数 wo P, 还 体现 在 wo* P. 于 
是 , 联合 概率 P(x) 可 基于 极 大 团 来 定义 . 假定 所 有 极 大 团 构 成 的 集合 为 C*, 则 
有 

P(x) = = I] vetxe) ， (14.3) 
Qec* 

其 中 2Z* = >. Tlgec« We(xe) 为 规范 化 因子 . 例如 图 14.2 中 x = {x1,22,..., 
zz6}， 联 合 概率 分 布 P(x) 定义 为 


P(x) = via (1, z2)%13(21, v3) 2a 2, Ta) as (13, 5) 256 (2,5, z6) 


其 中 , Lee a wos6 (22,25, 26) 定义 在 极 大 团 {r2,£5, x8} E, 由 于 它 的 存在 , 使 
我 们 不 再 需 为 团 {x2, £5}, {zx2, 26} 和 {zs, xe} 构建 势 函 数 . 

在 马尔 可 去 随 机 场 中 如 何 得 到 “条 件 独 立 性 ” 呢 ? 同样 借助 “分 离 ” 的 概 
a, 如 图 14.3 所 示 , SBMA A 中 的 结 点 到 B 中 的 结 点 都 必须 经 过 结 点 集 CC 
中 的 结 点 , 则 称 结 点 集 A 和 B 被 结 点 集 C 分 离 , CRA “ABR” (separating 
set). 对 蕊 尔 可 夫 随 机 场 , 有 


e “全 局 马尔 可 夫 性 ?” (global Markov property): 给 定 两 个 变量 子 集 的 分 
离 集 , 则 这 两 个 变量 子 集 条 件 独 立 ， 


也 就 是 说 , 图 14.3 FES A, BAC 对 应 的 变量 集 分 别 为 x4, XB Fl xo, Mil x, 
和 xp 在 给 定 xc 的 条 件 下 独立 , WAx, | XB | xc. 


4 ; 
— a = + ~~ 


图 14.3 结 点 集 A4A4A 和 BB 被 结 点 集 口 分离 
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下 面 我 们 做 一 个 简单 的 验证 . 为 便于 讨论 , 我 们 令 图 14.3 PHI A, BAC 
分 别 对 应 单 变 量 r4, op 和 zc, 于 是 图 14.3 人 简化 为 图 14.4. 


图 14.4 图 14.3 的 简化 版 


对 于 图 14.4, 由 式 (14.2) 可 得 联合 概率 


1 
Pitam 50) 三 FYAC(TA, tc) Bc (xB, xc) . (14.4) 
基于 条 件 概率 的 定义 可 得 
Pits, 75, to) = Pl at a) 


P(xa,xB | xc) P(zc) | ee we ee) 


_ zvac(ta,zc)Psc(ts,tc) 
Dr dua, Zzvac(z's, tc )WpBa(2, tc) 


WAC(TATC) VBC(TB, xc) 


Piza, sce) _ Dr P(zA, TH, Zc) 
Plzc) La, Vat, PT, 2p BC) 
> BWAC(TA, ZC)WBC(ZB ZC) 
Dr Lue’, 元 W4C(Z4 Fo) bBo (2g, TO) 


_ _ Vaolta, To) 
Dr, PAC(H'4, TC) ) 


P(xa | zo) = 


(14.6) 


由 式 (14.5) 和 (14.6) 可 知 
P(z4, £B | zc) = P(ra | zc)P(zB | zo) ， (14.7) 


即 za 和 zB 在 给 定 zc 时 条 件 独 立 . 


由 全 局 马尔 可 夫 性 可 得 到 两 个 很 有 用 的 推论 : 
e 局 部 马尔 可 夫 性 (local Markov property): 给 定 某 变量 的 邻接 变量 , WZ 


14.3 ”条 件 随机 上 场 


某 变 量 的 所 有 邻接 变量 

组 成 的 集合 称 为 该 变量 的 

“i ARTE” (Markov 
blanket). 


条 件 随 机 场 可 看 作 给 定 
观测 值 的 马尔 可 夫 随 机 场 ， 
也 可 看 作对 率 回 归 的 扩展 ; 
对 率 回 归 参 见 3.3 节 . 
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变量 条 件 独 立 于 其 他 变量 . 形式 化 地 说 , © V 为 图 的 结 点 集 , n(v) 为 结 点 
v 在 图 上 的 邻接 结 反 , n*(v) = n(v) U {v}, Axy L Xy\ne(v) | Xn(v) - 


e 成 对 马尔 可 夫 性 (pairwise Markov property): 给 定 所 有 其 他 变量 , 两 个 非 
邻接 变量 条 件 独 立 . 形式 化 地 说 , 令 图 的 结 点 集 和 边 集 分 别 为 V 和 E, 对 
图 中 的 两 个 结 点 wu 和 U, Ay (u, v) 区 E, Wy Xu L Xy | XV (uv) - 


现在 我 们 来 考察 马尔 可 夫 随 机 场 中 的 势 函数 ， 显然 , 势 函数 wo(xo) 的 作 
用 是 定量 刻画 变量 集 x 中 变量 之 同 的 相关 关系 , 它 应 该 是 非 负 函数 , 日 在 所 仿 
好 的 变量 取 值 上 有 和 较 大 函数 值 . 例如 , 假定 图 14.4 中 的 变量 均 为 二 值 变 量 , 者 
1.5, if gta = gc; 


Wac(@A, rc) = | 


0.1, otherwise , 


| | 、 0.2, if ETB = TCO; 
YBolzB, zo) = | 1.3, otherwise , 
则 说 明 该 模型 俩 好 变量 zj 与 zc 拥有 相同 的 取 值 , ze 与 zc 拥有 不 同 的 取 值 ; 
换言之 , 在 该 模型 中 z4 与 zc 正 相 关 , tg 与 zc RIAR. 结合 式 (14.2) 易 知 , > 
ra 与 zc 相同 且 zp 与 zc 不 同 的 变量 值 指 派 将 取得 较 高 的 联合 概率 . 
为 了 满足 非 负 性 , 指数 函数 第 被 用 于 定义 势 函 数 , 即 


Wo(xo) = e Zea) . (14.8) 


Ho(xo) 是 一 个 定义 在 变量 xo 上 的 实 值 函数 , 常见 形式 为 
Ha(xg)= > owrury + Ý rtu, (14.9) 
u vEQ usu UED 


其 中 au 和 By 是 参数 . 上 式 中 的 第 二 项 仅 考 虑 单 结 乓 , 第 一 项 则 考虑 每 一 对 结 


14.3 条 件 随机 场 


条 件 随 机 场 (Conditional Random Field, WER CRF) 是 一 种 判别 式 无 回 图 
模型 . 14.1 节 提 到 过 , 生成 式 模型 是 直接 对 联合 分 布 进行 建 模 , 而 判别 式 模 型 则 
是 对 条 件 分 布 进行 建 模 . 前 面 介 绍 的 隐 马 尔 可 夫 模 型 和 马尔 可 夫 随 机 场 都 是 生 
成 式 模型 , 而 条 件 随机 场 则 是 判别 式 模 型 . 
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条 件 随机 场 试 图 对 多 个 变量 在 给 定 观测 值 后 的 条 件 概 率 进 行 建 模 . 具体 来 
ti, 4S x = {a1, T2, ..., tn} 为 观测 序列 , y = {y1, yo, ---, yn} 为 与 之 相应 
的 标记 序列 , 则 条 件 随 机 场 的 目标 是 构建 条 件 概 率 模 型 Ply | x). 需 注 意 的 是 ， 
标记 变量 y 可 以 是 结构 型 变量 , 即 其 分 量 之 间 具 有 某 种 相关 性 . 例如 在 自然 语 
言 处 理 的 词性 标注 任务 中 , 观测 数据 为 语句 ( 即 单词 序列 ), 标记 为 相应 的 词性 序 
列 , 具有 线性 序列 结构 , 如 图 14.5(a) 所 示 ; 在 语法 分 析 任务 中 , 输出 标记 则 是 语 
法 树 , 具有 树 形 结构 , 如 图 14.5(b) 所 示 . 


t5] 
P we i y p 
y {y1 Ya U3 Ya Y5 Y 6 上 m oo 
F | \ a [PP] y 
[D] [N] [Vv] ID] A] /\ 7 ox 
/| J ff (NPI 
l 1 ra nee 
tzl Tə Ta T4Ts Tej D) Ni V co N 
The boy knocked at the watermelon. | The toy knocked at the watermelon. | X 
(a) 词性 标注 (b) 语法 分 析 


图 14.5 自然 语言 处 理 中 的 词性 标注 和 语法 分 析 任 务 


G = (V, E) 表示 结 点 与 标记 变量 y 中 元 素 一 一 对 应 的 无 向 图 , 加 表示 
与 结 点 v 对 应 的 标记 变量 , n(v) 表示 结 点 v 的 邻接 结 点 , FFE G 的 每 个 变量 yo 
都 满足 马尔 可 夫 性 , 即 


P(o | X, Yvy) = Pw | X, Yn) > (14.10) 


则 (y, x) 构成 一 个 条 件 随 机 场 . 


理论 上 来 说 , 图 G 可 具有 任意 结构 , 只 要 能 表示 标记 变量 之 间 的 条 件 独 立 
性 关系 即 可 . 但 在 现实 应 用 中 , 尤其 是 对 标记 序列 建 模 时 , 最 常用 的 仍 是 图 14.6 
所 示 的 链 式 结构 , 即 “ 链 式 条 件 随机 场 ”(chain-structured CRF). 下 面 我 们 主 
要 讨论 这 种 条 件 随机 场 . 


SC 一 


x= {21 o o 


图 14.6 链 式 条 件 随 机 场 的 图 结构 


14.3 条 件 随机 场 
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与 马尔 可 夫 随 机 场 定 义 联合 概率 的 方式 类 似 , 条 件 随 机 场 使 用 势 函 数 和 图 
结构 上 的 团 来 定义 条 件 概 率 Ply | x). 给 定 观 测序 列 x, 图 14.6 所 示 的 链 式 条 
件 随 机 场 主要 包含 两 种 关于 标记 变量 的 团 , 即 单个 标记 变量 {yi} 以 及 相 邻 的 标 
记 变 量 {yy} 选择 合适 的 势 函 数 , 即 可 得 到 形 如 式 (14.2) 的 条 件 概率 定义 . 
在 条 件 随机 场 中 , 通过 选用 指数 势 函 数 并 引入 特征 函数 (feature function), 条 件 
概率 被 定义 为 


1 ni m l 
Ply | x) = Fexp (= DN (yin, Yi x, i) + > > ,HkSk(Yi, x, 9 , 
j i=l k i=l 


(14.11) 


HE tj(yi+i, Yi X, i) AEE AER Fe AI PS 7S A SEER 0 i E E HI Pe EF ME ERI 
#r(transition feature function), 用 于 刻画 相 邻 标记 变量 之 间 的 相关 关系 以 及 观 
测序 列 对 它们 的 影响 ,skf x, i) 是 定义 在 观测 序列 的 标记 人 位置? 上 的 状态 特征 
函数 (status feature function), 用 于 刻画 观测 序列 对 标记 变量 的 影响 A; 和 jw 
为 参数 , Z 为 规范 化 因子 , 用 于 确保 式 (14.11) 是 正确 定义 的 概率 . 

显然 , 要 使 用 条 件 随机 场 , 还 需 定 义 合 适 的 特征 函数 . 特征 函数 通常 是 实 值 
函数 ,以 刻画 数据 的 一 些 很 可 能 成 立 或 期 望 成 立 的 经 验 特性 . 以 图 14.5(a) 的 词 
性 标注 任务 为 例 , 大 采用 转移 特征 函数 


1, if y4i1 = [P], y; = [V] and z; =“knock”; 


tj; (yi 1; Yi, X, i — 9 
Vit, Yi | 0, otherwise, 


则 表示 第 i 个 观测 值 zi 为 单词 “knock” 时 , 相应 的 标记 yi 和 yy 很 可 能 分 别 为 
[V] 和 LP]. 铸 采 用 状态 特征 函数 


l, ify = [V] and x; = “knock”; 


0, otherwise, 


Si (Yi, Xt) = | 
则 表示 观测 值 x; 为 单词 <knock” 时 , 它 所 对 应 的 标记 很 可 能 为 [V]. 
对 比 式 (14.11) 和 (14.2) 可 看 出 , 条 件 随 机 场 和 马尔 可 去 随机 场 均 使 用 团 上 


的 势 函 数 定 义 概率 , 两 者 在 形式 上 没有 显著 区 别 ; 但 条 件 随 机 场 处 理 的 是 条 件 
概率 , 而 马尔 可 夫 随 机 场 处 理 的 是 联合 概率 . 
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贝 叶 斯 学 派 认 为 未 知 参 
数 与 其 他 变量 一 样 ， 都 是 
随机 变量 ,因此 参数 估计 
和 变量 推断 能 统一 在 推断 
框架 下 进行 . 但 频率 主义 
学 派对 此 并 不 认同 . 
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14.4 学 习 与 推断 


基于 概率 图 模型 定义 的 联合 概率 分 布 , 我 们 能 对 目标 变量 的 边际 分 
布 (marginal distribution) 或 以 某 些 可 观测 变量 为 条 件 的 条 件 分 布 进 行 推断 . 条 
件 分 布 我 们 已 经 接触 过 很 多 , 例如 在 隐 马 尔 可 夫 模 型 中 要 估算 观测 序列 x 在 给 
定 参 数 入 下 的 条 件 概 率 分 布 . 边际 分 布 则 是 指 对 无 关 变 量 求 和 或 积分 后 得 到 结 
R, 例如 在 马尔 可 夫 网 中 , 变量 的 联合 分 布 秘 表示 成 极 大 团 的 按 函 数 乘积 , 于 
是 , 给 定 参 数 日 求解 某 个 变量 z 的 分 布 , 就 变 成 对 联合 分 布 中 其 他 无 关 变 量 进 
行 积分 的 过 程 , 这 称 为 “边际 化 ” (marginalization). 

对 概率 图 模型 , 还 需 确 定 具 体 分 布 的 参数 , 这 称 为 参数 估计 或 参数 学 习 问 
题 , 通 弟 使 用 极 大 似 然 估计 或 最 大 后 验 概 率 估计 求解 . 但 看 将 参数 视 为 竺 推测 
的 变量 , 则 参数 估计 过 程 和 推断 十 分 相似 , 可 以 “吸收 ”到 推断 问题 中 . 因此 ， 
下 和 面 我 们 只 讨论 概率 图 模型 的 推断 方法 . 

具体 来 说 , 假设 图 模型 所 对 应 的 变量 集 = {x1, £2,..., EN} 能 分 为 xgp 和 
xp 两 个 不 相交 的 变量 集 , 推断 问题 的 目标 就 是 计算 边际 概率 P(x) 或 条 件 概 
率 P(xp | xE). 由 条 件 概率 定义 有 

P(XE,XF) = P(xE, XF) 

其 中 联合 概率 已 xpP,xF) 可 基于 概率 图 模型 获得 , 因此 , 推断 问题 的 关键 就 是 
如 何 咒 效 地 计算 边际 分 布 , BY 


P(xg) = > _P(xg, xr) | (14.13) 


概率 图 模型 的 推断 方法 大 致 可 分 为 两 类 . 第 一 类 是 精确 推断 方法 , 希望 能 
计算 出 目标 变量 的 边际 分 布 或 条 件 分 布 的 精确 值 ; 遗憾 的 是 , 一 般 情 形 下 , 此 类 
算法 的 计算 复杂 度 随 着 极 大 团 规模 的 增长 呈 指 数 增长 , 适用 范围 有 限 . 第 二 类 
是 近似 推断 方法 , 希望 在 较 低 的 时 间 复 杂 度 下 获得 原 问 题 的 近似 解 ; 此 类 方法 
在 现实 任务 中 更 彰 用 . 本 和 介绍 两 种 代表 性 的 精确 推 靳 方法 , 下 一 和 介绍 近似 
HEMT TT YZ. 


14.4.1 变量 消去 


精确 推断 的 实质 是 一 类 动态 规划 算法 , 它 利 用 图 模型 所 描述 的 条 件 独立 性 
来 削减 计算 目标 概率 值 所 需 的 计算 量 . 变量 消去 法 是 最 直观 的 精确 推断 算法 ， 
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也 是 构建 其 他 精确 推断 算法 的 基础 
我 们 先 以 图 14.7(a) 中 的 有 向 图 模型 为 例 来 介绍 其 工作 流程 . 


一 i A 
A tTHal ta) Mga (ay | ma 
a a 


{Ts ~ Ta 


Mee 
(a) 贝 叶 斯 网 络 结构 (b) 消息 传递 过 程 
图 14.7 变量 消去 法 及 其 对 应 的 消息 传递 过 程 


假定 推断 目标 是 计算 边际 概率 P(x). 显然 , 为 了 完成 此 目标 , 只 需 通 过 加 
法 消去 变量 {%1,%2,03, C4}, BY 


P(xs) = > > S > P(21, £2, T3, T4, T5) 


TA T3 Ta T1 
基于 有 向 图 模型 所 描述 | | 
的 条 件 独 立 性 . = >》 >》 > P(ai)P(«2 | zl)P(zs | zz)P(za | za)P(zs | za) . 


TA t3 T? T1 


(14.14) 
不 难 发 现 , 若 采 用 {x1, £2, z4, 13} 的 顺序 计算 加 法 , 则 有 
P(a5) = >_ P(zs | 3) | P(z4 | z3) >) P(xs | x2) >| P(#1)P(22 | z1) 
=) P(z5 | 23) _ P(z4 | 23) > P(x3 | 22)mi2(z2) , (14.15) 


其 中 my; (a,j) 是 求 加 过 程 的 中 间 结 果 , 下 标 i 表示 此 项 是 对 zi 求 加 的 结果 , 下 
标 j 表示 此 项 中 剩 下 的 其 他 变量 . 显然 , myle) 是 关于 zj 的 函数 . 不 断 执行 此 
过 程 可 得 


P(z5) = 》 已 (z5 | z3) 》 已 (z4 | 73)m23(73) 
= > P(as | x3) m23(x3) y P(x4 | x3) 
=> 已 (z5 | z3)m23(£3)ma3 (z3) 


r3 


= m35 (x5) . (14.16) 
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亦 称 Sum-Product 算法 . 
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显然 , 最 后 的 mas (x5) 是 关于 zs HWY PRM, 仅 与 变量 T5 的 取 值 有 关 . 
事实 上 ,上 述 方法 对 无 同 图 模型 同样 适用 . 不 护 忽 略图 14.7(a) PA aK, 
将 其 看 作 一 个 无 向 图 模型 , 有 


P(X1, £2, £3, £4, £5) = FV12( 01, ©2)b2s (a2, 3) Y4 (23, v4) Was (La, £5) : 
(14.17) 
其 中 Z 为 规范 化 因子 . 边际 分 布 P(xs) 可 这 样 计 算 : 


P(z5) = > Dwas(za, £5) > v34(x3,04) 》 WY23(T2, £3) 》 Wi12(T1, £2) 


= > > v35(23,25) > Waa(T3, £4) > 23(T2, £3)M12(x2) 


> mas(zs) (14.18) 

显然 , 通过 利用 乘法 对 加 法 的 分 配 律 , 变量 消去 法 把 多 个 变量 的 积 的 求 和 
问题 , 转化 为 对 部 分 变量 交 殖 进行 求 积 与 求 和 的 问题 . 这 种 转化 使 得 每 次 的 来 
和 与 求 积 运算 限制 在 局 部 , 仪 与 部 分 变量 有 关 , 从 而 简化 了 计算 . 

变量 消去 法 有 一 个 明显 的 缺点 : 者 需 计 算 多 个 边际 分 布 , 重复 使 用 变量 
消去 法 将 会 造成 大 量 的 见 余 计算 . 例如 在 图 14.7(a) 的 贝 叶 斯 网 上 , 假定 在 计 
算 P(z5) 之 外 还 希望 计算 P(x4a), 在 采用 {21, £2, 25,23} 的 顺序 , M) milz) 和 
m23(Z3) 的 计算 是 重复 的 . 


14.4.2 信念 传播 

信念 传播 (Belief Propagation) 算 法 将 变量 消去 法 中 的 求 和 操作 看 作 一 个 消 
息 传递 过 程 , 较 好 地 解决 了 求解 多 个 边际 分 布 时 的 重复 计算 问题 . 具体 来 说 , 变 
量 消 去 法 通过 求 和 操作 


mijlzj) =X Yleis) [| mrle) (14.19) 
Ti ken(i)\j 

消去 变量 zi, 其 中 n(i) 表示 结 点 zi 的 邻接 结 点 . 在 信念 传播 算法 中 , 这 个 操作 

被 看 作 从 zi 向 zj 传递 了 一 个 消息 mila) 这 样 , 式 (14.15) 和 (14.16) 所 描述 的 

变量 消去 过 程 就 能 描述 为 图 14.7(b) 所 示 的 消息 传递 过 程 . 不 难 发 现 , 每 次 消息 

传递 操作 仅 与 变量 r 及 其 邻接 结 点 直接 相关 , 换言之 , 消息 传递 相关 的 计算 被 


14.5 近似 推断 
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限制 在 图 的 局 部 进行 . 
在 信念 传播 算法 中 , 一 个 结 点 仅 在 接收 到 来 自 其 他 所 有 结 点 的 消息 后 才能 
癌 另 一 个 结 点 发 送 消息 , 且 绪 点 的 边际 分 布 正 比 于 它 所 接收 的 消息 的 乘积 , 即 


P(x) cx ll Meri (Xi) - (14.20) 
kEn(i) 
例如 在 图 14.7(b) 中 , 结 点 za 要 同 z5 发 送 消 恩 , 必须 事先 收 到 来 目 结 点 x2 和 
za KS, HES) rs 的 请 县 m35 (Ts) TRAN P(x5). 
若 图 结构 中 没有 环 , 则 信念 传播 算法 经 过 两 个 步骤 即 可 完成 所 有 消息 传递 ， 
进而 能 计算 所 有 变量 上 的 边际 分 布 : 


。 指定 一 个 根 结 点 ,从 所 有 时 结 点 开始 癌 根 结 点 传递 消息 , 直到 根 结 点 收 到 
所 有 邻接 结 点 的 消 屋 ; 


。 从 根 结 点 开始 癌 叶 结 点 传递 消息 , 直到 所 有 叶 结 点 均 收 到 消息 . 


例如 在 图 14.7(a) 中 , Sa, ARAM, 则 z4 和 z5 AIHER. 以 上 两 步 消 忆 
传递 的 过 程 如 图 14.8 Bras. 此 时 图 的 每 条 边 上 痢 有 方 丫 不 同 的 两 条 消息 , 基于 
这 些 消 奶 和 式 (14.20) 即 可 获得 所 有 变量 的 边际 概率 . 


Taala) Aas) maalta) (au) 
eee SS eee To 


a 


_ 本 = = ae 
a (1) As Taal To) p Ma lE) ( Mapl Ta) "mss (4) 
© I © measles) 一 一 @2) — ~ Maal 
| a a = A, Maalta 
ae _ Mnn tee ~ ae ( i 】 


mal ra) Wey (wa) 


aa ope is ie Seer ‘3 = 
(as) Tsg (25 ) | Ts 
(a) 消息 传 向 根 结 点 (b) 消息 从 根 结 点 传 出 


图 14.8 信念 传播 算法 图 示 


14.5 近似 推断 

精确 推断 方法 通 第 需要 很 大 的 计算 开销 , 因此 在 现实 应 用 中 近似 推 籽 方法 
更 为 常用 . 近似 推断 方法 大 致 可 分 为 两 大 类 : 第 一 类 是 采样 (sampling), 通过 使 
用 随机 化 方法 完成 近似 ; 第 二 类 是 使 用 确定 性 近似 完成 近似 推断 , 典型 代表 为 
变 分 推断 (variational inference). 
14.5.1 MCMC 采 样 

在 很 多 任务 中 , 我 们 关心 某 些 概率 分 布 并 非 因为 对 这 些 概率 分 布 本 和 号 感 兴 
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车 zx 是 离散 变量 , 则 把 
FR SY FRAT Fo Bp AY 
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趣 ,而 是 要 基于 它们 计算 某 些 期 望 , 并 且 还 可 能 进一步 基于 这 些 期 望 做 出 决策 . 
例如 对 图 14.7(a) 的 贝 叶 斯 网 , 进行 推断 的 目的 可 能 是 为 了 计算 变量 cs 的 期 望 . 
藻 直 接 计 算 或 逼近 这 个 期 望 比 推断 概率 分 布 更 容易 , 则 直接 操作 无 疑 将 使 推断 
问题 的 求解 更 为 局 效 . 

采样 法 正 是 基于 这 个 思路 . 具体 来 说 , 假定 我 们 的 目标 是 计算 函数 f(x) TE 
概率 密度 函数 p(x) 下 的 期 望 


Bolf] = | f(@)p(a)az , (14.21) 

则 可 根据 p(x) 抽取 一 组 样本 {zx1, x2,...,ZN}, 然后 计算 f(x) 在 这 些 样本 上 的 
均值 

f= 1S play (14.22) 

Ne E 

以 此 来 近似 目标 期 望 EJS] EER {zi1, 12,... eN} 独立 , 基于 大 数 定律 , 这 种 


通过 大 量 采 样 的 办 法 就 能 获得 较 高 的 近似 精度 . 问题 的 关键 是 如 何 采 样 . 对 概 
率 图 模型 来 说 , 加 是 如 何 高 效 地 基于 图 模型 历 描述 的 概率 分 布 来 获取 样本 . 


WEE EFW P a i H RKE RRE RA RER F Y (Markov Chain 
Monte Carlo, 简称 MCMC) 方 法 . 给 定 连 续 变 量 r E X 的 概率 密度 函数 p(x), 
x 在 区 间 4 中 的 概率 可 计算 为 

P(A) = | pz)ar . (14.23) 
A 
EARM f: XO R, 则 可 计算 f(z) 的 期 望 
Pf) = Ep FO] = /fc)p(a)dz (14.24) 
E x 不 是 单 变 量 而 是 一 个 高 维 多 元 变量 x, 且 服 从 一 个 非常 复杂 的 分 布 , 则 对 


式 (14.24) 求 积分 通常 很 困难 . 为 此 , MCMC 先 构造 出 服从 p 分 布 的 独立 同 分 布 


N 
PA) => D C). (14.25) 


i=l 


然而 , ARE BE PRB p(x) 很 复杂 , 则 构造 服从 p 分布 的 独立 同 分 布 样本 
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Metropolis-Hastings 3 
法 是 由 N. Metropolis 等 人 
1953 年 提 出 [Metropolis 
et al.，1953]， 此 后 W. K. 
Hastings 将 其 推广 到 一 般 
形式 [Hastings，1970]， 因 
此 而 得 名 . 


重复 足够 多 次 以 达到 平 
ASS} Ap 


根据 式 (14.28). 


实践 中 常会 丢弃 前 面 车 
干 个 样本 ,因为 达到 平稳 
分 布 后 产生 的 才 是 希望 得 
到 的 样本 , 
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也 很 困难 . MCMC 方法 的 关键 就 在 于 通过 构造 “平稳 分 布 为 p 的 马尔 可 夫 链 ” 
来 产生 样本 : 若 马 尔 可 夫 链 运行 时 间 足 够 长 ( 即 收 和 敛 到 平稳 状态 ), 则 此 时 产 出 
的 样本 x 近似 服从 于 分 布 p . 如 何 判 断 马 尔 可 夫 链 到 达 平 稳 状 态 呢 ? 假定 平稳 
马尔 可 夫 链 工 的 状态 转移 概率 ( 即 从 状态 x 转移 到 状态 x 的 概率 ) 为 T(x’ | x), 
t 时 刻 状 态 的 分 布 为 p(x*), War ESE THY BIS OR BY] SO ACP RF 
p(x T(x | x*) = p(x THT (xt | x*—*), (14.26) 

W) p(x) 是 该 马尔 可 去 链 的 平稳 分 布 , 上 且 马 尔 可 夫 链 在 满足 该 条 件 时 已 收敛 到 平 

也 就 是 说 , MCMC 方法 先 设 法 构造 一 条 马尔 可 夫 链 , 使 其 收敛 至 平稳 分 布 
恰 为 待 估计 参数 的 后 验 分 布 , 然后 通过 这 条 马尔 可 夫 链 来 产生 符合 后 验 分 布 的 
样本 , 并 基于 这 些 样本 来 进行 估计 . 这 里 马尔 可 夫 链 转移 概率 的 构造 至 关 重 要 ， 
不 同 的 构造 方法 将 产生 不 同 的 MCMC 算法 . 

Metropolis-Hastings (HJER MH) 算法 是 MCMC 的 重要 代表 . 它 基 于 “ 拒 
绝 采 样 ”(reject sampling) 来 通 近 平稳 分 布 p. 如 图 14.9 Prax, 算法 每 次 根 
据 上 一 轮 采 样 结果 x’) 来 采样 获得 候选 状态 样本 x*, 但 这 个 候选 样本 会 以 
一 定 的 概率 被 “拒绝 ” 掉 . 假定 从 状态 xl 到 状态 x* 的 转移 概率 为 Q(x* | 
x?!) A(x* | xi 其 中 Q(x* | xt!) 是 用 户 给 定 的 先 验 概率 , A(x* | xt +) 是 
x* 被 接受 的 概率 . 若 x* 最 终 收 剑 到 平稳 状态 , 则 根据 式 (14.26) 有 


PK QE |x )A(x’* | x9) = p RGT | xA | x"), (14.27) 


输入 : 先 验 概率 Q(x* | x’ +). 
过 程 


YE: 
1: JiR x9; 
2: for t = 1,2,... do 
3: ”根据 Q(x* | xt) 采样 出 候选 样本 x*; 
根据 均匀 分 布 从 (0,1) YER A SORE BEL u; 
if u < A(x*|x*-') then 
x’ = x* 
else 
xt — xt-1 
9: end if 
10: end for 
11: return x!,x’,... 


输出 : 采样 出 的 一 个 样本 序列 x", x7, ... 


a Se ee 


图 14.9 Metropolis-Hastings 算法 
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TÆ, 为 了 达到 平稳 状态 , 只 需 将 接受 率 设 置 为 


k` t—1 * 
A(x* | x*-!) = min 也 TO =) . (14.28) 


吉 布 斯 采样 (Gibbs sampling) 有 时 被 视 为 MH 算法 的 特例 , 它 也 使 用 马尔 
可 夫 链 获取 样本 , 而 该 马尔 可 去 链 的 平稳 分 布 也 是 采样 的 目标 分 布 p(x). 具体 
来 说 , 假定 x = {fzli,za,... eN}, 目标 分 布 为 p(x), 在 初始 化 x 的 取 值 后 , 通过 
循环 执行 以 下 步骤 来 完成 采样 : 


(1) 随机 或 以 某 个 次 序 选 取 某 变 量 ri 
(2) 根据 x 中 除 zi 外 的 变量 的 现 有 取 值 , 计算 条 件 概率 p(z; | x), 其 中 
> 一 {21,22, e. 3 Cic l; Tipli ENÍ ; 


(3) 根据 p(z; | xz) 对 变量 zi 采样 , 用 采样 值 代替 原 值 . 


14.5.2 变 分 推断 


变 分 推断 通过 使 用 已 知 简单 分 布 来 通 近 需 推 断 的 复杂 分 布 , 并 通过 限制 近 
似 分 布 的 类 型 , 从 而 得 到 一 种 局 部 最 优 、 但 具有 确定 解 的 近似 后 验 分 布 . 

在 学 习 变 分 推断 之 前 , 我 们 先 介绍 概率 图 模型 一 种 简洁 的 表示 方法 一 一 熏 
式 记 法 (plate notation) [Buntine, 1994]. 14.10 给 出 了 一 个 简单 的 例子 . 
14.10(a) 表 示 N 个 变量 {21,270,...,cn 均 依 赖 于 其 他 变量 z.， 在 图 
14.10(b) 中 , 相互 独 并 的 、 由 相同 机 制 生成 的 多 个 变量 被 放 在 一 个 方 框 ( 盘 ) 内 ， 
并 在 方 框 中 标 出 类 似 朗 量 重 复出 现 的 个 数 N; FE PARSE. 通 第 用 阴影 标注 
出 己 知 的 、 能 观察 到 的 变量 , 如 图 14.10 中 的 变量 xz. 在 很 多 学 习 任 务 中 , 对 属 
性 变量 使 用 盘 式 记 法 将 使 得 图 表示 非常 简洁 . 


` 


(a) 普通 变量 关系 图 (b) 盘 式 记 法 
14.10 AAW 
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在 图 14.10(b) 中 , 所 有 能 观察 到 的 变量 r 的 联合 分 布 的 概率 密度 函数 是 


变 分 推断 使 用 的 近似 分 
布 需 具有 良好 的 数值 性 质 ， | 
通常 是 基于 连续 型 变量 的 | d 
概率 密度 函数 来 刻画 的 . p(x | ©) = | [| X p(z; z |9), (14.29) 
=] Z 


所 对 应 的 对 数 似 然 函 数 为 


N 
In p(x | Ə) = > In {ples | )} | (14.30) 
i=1 z 


HP x = {zi1,X2,...,ZTN}, 昌 是 x 与 z 服从 的 分 布 参 数 . 
一 般 来 说 , 图 14.10 所 对 应 的 推 上 新 和 学 习 任 务 主 要 是 由 观察 到 的 变量 x 来 
估计 隐 变 量 z 和 分 布 参数 变量 日 , 即 求解 plz | x, 9) 和 O. 
概率 模型 的 参数 估计 通常 以 最 大 化 对 数 似 然 函 数 为 手段 . 对 式 (14.30) 可 使 
EM $A SIL 7.6 Y. 用 EM 算法 : 在 卫 步 , 根据 t 时 刻 的 参数 Of 对 p(z | x, O°) 进行 推断 , 并 计算 联 
合 似 然 函数 p(x,z | ©); 在 M WG, 基于 EE 步 的 结果 进行 最 大 化 寻 优 , 即 对 关于 变 
fm O 的 函数 O(0; 9) 进行 最 大 化 从 而 求 取 


o'ti = arg max O(O; O*) 
Ə 


= arg max Š p(z | x, O°) In p(x, z | O) . (14.31) 
Ə zZ 


式 (14.31) 中 的 O(0; O°) Pr EENAA IARR In p(x, z | 日 ) 在 分 布 
plz | x, ©) 下 的 期 望 , 当 分 布 plz | x, 9t) 与 变量 z 的 真实 后 验 分 布 相 等 时 ， 
Q(9; Ot) 近似 于 对 数 似 然 函 数 . 于 是 , EM 算法 最 终 可 获得 稳定 的 参数 日 , TK 
变量 z 的 分 布 也 能 通过 该 参数 获得 . 

需 注 意 的 是 , p(z | x, O°) 未 必 是 隐 变 量 z 服从 的 真实 分 布 , 而 只 是 一 个 近 
似 分 布 . 若 将 这 个 近似 分 布 用 gq(z) 表示 , 则 不 难 验 证 


In p(x) = Cd) + KL(g || p), (14.32) 
其 中 
L£(q) = fae) In a \ dz , (14.33) 
KL 散 度 , 参见 附录 C.3. KL(q || p) = - fa) Pz ag (14.34) 
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Aft i, eB IF 
qi (Zi) 简写 为 Qi- 


const 是 一 个 常数 . 
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然而 在 现实 任务 中 , E 步 对 plz | x, O°) 的 推断 很 可 能 因 z 模型 复杂 而 难以 
进行 , 此 时 可 借助 变 分 推断 . 通常 假设 z 服从 分 布 


M 
q(z) = | | a(z), (14.35) 

i=l 
即 假设 复杂 的 多 变量 z 可 拆 解 为 一 系列 相互 独立 的 多 变量 z;. 更 重要 的 是 ， 


可 以 令 qi 分 布 相对 简单 或 有 很 好 的 结构 , 例如 假设 qi 为 指数 族 (exponential 
family) 分 布 , 此 时 有 


L(q) = /IIs {ints = nap ae 


= fa | fit [aan | dz; 一 fa In gjdz; + const 


Aj 
= fa In p(x, z;)dz; 一 fa Ing;dz; + const , (14.36) 
其 中 
In p(x, 2;) = Exz,; [In p(x, z)| + const , (14.37) 
E;z; [In p(x, 2)] = J np, 2 TT adz . (14.38) 
‘Aj 


我 们 关心 的 是 qj, 因此 可 固定 gigs 再 对 Lla) 进行 最 大 化 , 可 发 现 
式 (14.36) 等 于 一 KL (q; || B(x, z;)), 即 当 q; = P(x, zj) 时 L(a) MAK. 于 是 可 
知 变 量子 集 z; 所 服从 的 最 优 分 布 of 应 满足 


In gj (2;) = Eiz; [In p(x, z)] + const , (14.39) 


Bp 
exp (Eij; [In p (x, z)] ) 

J exp (Eiz; [In p (x, z)] )dz; 
换言之 , 在 式 (14.35) 这 个 假设 下 , 变量 子 集 z; 最 接近 真实 情形 的 分 布 由 
式 (14.40) 给 出 . 

WA, 基于 式 (14.35) 的 假设 , 通过 恰当 地 分 割 独 并 变量 于 集 zj 并 选择 qi 服 
从 的 分 布 , Ei;y; [In p(x, z)] 往往 有 闭 式 解 , 这 使 得 基于 式 (14.40) 能 高 效 地 对 隐 变 
fit z 进行 推断 . 事实 上 , 由 式 (14.38) 可 看 出 , 对 变量 zj 分布 g? 进行 估计 时 融合 


qj (Zj) = (14.40) 


14.6 ”话题 模型 


mean 指 期 望 , field M) Æ 
指 分 布 ， 


例如 车 把 图 像 中 的 小 块 
看 作 “ 词 ”, 则 可 将 图 像 
表示 为 词 袋 ， 于 是 话题 模 
型 也 可 用 于 图 像 数据 . 


通常 需 对 词 频 做 一 些 
处 理 , 例如 去 除 “ 停 用 词 
表 ” 中 的 词 等 


犹 利克 雷 分 布 参 见 附 录 
C.1.6. 
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T z; 之 外 的 其 他 zi; 的 信息 , RIK WR PM In p(x, z) 在 2 之 外 的 隐 
变量 分 布 上 求 期 望 得 到 的 , 因此 亦 称 “ 平 均 场 ”(mean field) 方 法 . 

在 实践 中 使 用 变 分 法 时 , 最 重要 有 的 是 考虑 如 何 对 隐 变 量 进行 拆 解 , 以 及 假 
设 各 变量 子 集 服从 何 种 分 布 , 在 此 基础 上 套用 式 (14.40) 的 结论 再 结合 EM 算法 
即 可 进行 概率 图 模型 的 推断 和 参数 估计 . 显然 , 若 隐 变 量 的 拆 解 或 变量 子 集 的 
分 布 假设 不 当 , 将 会 导致 变 分 法 效率 低 、 效 果 差 . 


14.6 话题 模型 


话题 模型 (topic model) 是 一 族 生 成 式 有 向 图 模型 , 主要 用 于 处 理 离散 型 的 
数据 (如 文本 集合 ), 在 信息 检索 、 目 然 语言 处 理 等 领域 有 广泛 应 用 . Bet AKA E 
雷 分 配 模型 (Latent Dirichlet Allocation, 简称 LDA) 是 话题 模型 的 典型 代表 . 

我 们 先 来 了 解 一 下 话题 模型 中 的 几 个 概念 : 词 (word)、 文 档 (document) 和 
话题 (topic). 具体 来 说 , “ 词 ” 是 竺 处理 数据 的 基本 离散 单元 , 例如 在 文本 处 理 
任务 中 , 一 个 词 就 是 一 个 英文 单词 或 有 独立 意义 的 中 文 词 . “文档 ”是 待 处 理 
的 数据 对 象 , 它 由 一 组 词组 成 , 这 些 词 在 文档 中 是 不 计 顺 序 的 , 例如 一 篇 论文 、 
一 个 网 页 部 可 看 作 一 个 文档 ; 这 样 的 表示 方式 称 为 “ 词 伐 ”(bag-of-words). 数 
TROY AR Be AA SS TA, 就 可 使 用 话题 模型 . “话题 ”表示 一 个 概念 , 具体 表 
示 为 一 系列 相关 的 词 , 以 及 它们 在 该 概念 下 出 现 的 概率 . 

形象 地 说 , 如 图 14.11 Pras, 一 个 话题 就 像 是 一 个 箱子 , Be ae 
个 概念 下 出 现 概率 较 融 的 那些 词 . 不 妨 假定 数据 集中 一 共 包 含 OK 个 话题 
和 了 篇 文档 , 文档 中 的 词 来 目 一 个 包含 NN 个 词 的 词典 ， RGA TAN 维 
问 量 W = {wy ,wo,...,wr} 表示 数据 集 ( 即 文档 集合 ), KAN E Bh 
(k = 1,2,...,K) 表示 话题 , 其 中 w, € RY 的 第 nn 个 分 量 wen 表示 文档 寺中 词 
n 的 词 频 , Bi E RY 的 第 个 分 量 bkn 表示 话题 上 中 词 n 的 词 频 . 

在 现实 任务 中 可 通过 统计 文档 中 出 现 的 词 来 获得 词 频 回 量 wi (i = 
1,2,..., T), 但 通常 并 不 知道 这 组 文档 谈论 了 哪些 话题 , 也 不 知道 每 篇 文档 与 哪 
些 话题 有 关 . LDA 从 生成 式 模型 的 角度 来 看 待 文档 和 话题 . 具体 来 说 , LDA 认 
为 每 篇 文档 包含 多 个 话题 , 不 妨 用 向 量 ©, € RE 表示 文档 t 中 所 包含 的 每 个 话 
题 的 比例 , Ok 即 表示 文档 二 中 包含 话题 天 的 比例 , 进而 通过 下 面 的 步骤 由 话 
题 “ 生 成 ”文档 七: 


(1) 根据 参数 为 a 的 狄 利 克 雷 分 布 随机 采样 一 个 话题 分 布 Or 
(2) 按 如 下 步骤 生成 文档 中 的 N 个 词 : 
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Wied 
| 
问 声 灯 影 里 的 素 淮河 
作者 : 朱自清 . CN 
ALEA R, Aae iiia, EAA E E EN 
(4 RBIs, Piit, fix JE Be AT BE Ey BL Le x 
ANAT “tbe”, Æ iy at i dene i cE 
Smed, NF RAE, TTI BLIER T E AA, Ap E `Y 
i PAYAN AAA BHE EE RAA o a AER e 
文档 me a a aa E re i resins vet 22 测 和 : : 
ey. $f. “iy Ay a AS 84 两 T iL L AT o 
Fas, Babe eee, ETER Emi WEARTEN j | 
EA fa 18 69 AB AT re BAe ii, aa 4. 467, WR, Weise, a ma 
Hj Fe aÈ JL Ak i dë TA ELE E m E t: TE. TEE 这 二 i Py 
ae, HARI i 堡 在 小 赣 上 更 总 | AS To fie way ar TR /A 
slag sha aah. de ap TO 2 2 etre er T 话题 分 布 
一 样 。 系 淮河 的 着 约 略 可 和 谷 为 两 种 : #3 ag eae PEES, a x a eds 
—3 ka: —S-de, shasta “+ FRR phe. BHAA AR 
HF" z keia, TEZ 三 十 EA AAIR a FR aT et, 
A. EG RkG Fm ede de a | 


E, E- pl gc iran aim. 


话题 指派 


图 14.11 LDA 的 文档 生成 过 程 示意 图 


(a) 根据 Bi 进行 话题 指派 , 得 到 文档 t P n 的 话题 ztn; 
(b) 根据 指派 的 话题 所 对 应 的 词 频 分 布 Bi 随机 采样 生成 词 . 


图 14.11 演示 出 根据 以 上 步骤 生成 文档 的 过 程 . 显然 , 这 样 生 成 的 文档 上 自 
然 地 以 不 同比 例 包 含 多 个 话题 (步骤 1), 文档 中 的 每 个 词 来 目 一 个 话题 (步骤 
2b), 而 这 个 话题 是 依据 话题 比例 产生 的 (步骤 2a). 


图 14.12 描述 了 LDA 的 变量 关系 , 其 中 文档 中 的 词 频 wi 是 唯一 的 已 观 
测 变 量 , 它 依 赖 于 对 这 个 词 进 行 的 话题 指派 zen, 以 及 话题 所 对 应 的 词 频 Bk; 同 
时 , 话题 指派 zen 依赖 于 话题 分 布 Qi, O 依赖 于 狄 利克 雷 分 布 的 参数 a, 而 话 
题词 频 则 依赖 于 参数 n. 


14.12 LDA 的 盘 式 记 法 图 


于 是 , LDA 模型 对 应 的 概率 分 布 为 


14.7 阅读 材料 


大 见 附录 C.1.5. 


训练 文档 集 对 应 的 词 频 ， 
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p(W, z, 8,90 |an) = 


T K N 
] [ e@: |œ) [] eG: | mn) (11 P(we,n | Ztn, Bk) P(2,n | 2) , (14.41) 


t=1 =] n=l 


其 中 p(Bi | a) 和 p(B | 通常 分 别 设置 为 以 wa M n 为 参数 的 KK 维和 NN BEAK 
利克 和 雷 分 布 , 例如 


[ls 工 (ak) 
其 中 工 (-) 是 Gamma 函数 . BR, a 和 刀 是 模型 式 (14.41) 中 待 确定 的 参数 . 


给 定 训 练 数据 W = {wi,we,...,wr}, LDA 的 模型 参数 可 通过 极 大 似 然 
法 估计 , 即 寻 找 a 和 1 以 最 大 化 对 数 似 然 


p(et | a) = HEY TJ og, (14.42) 
k 


T 
LL(a,n) = >Inp(w | a,n) . (14.43) 
t=1 


但 由 于 p(w, | a.) 不 易 计 算 , 式 (14.43) 难 以 直接 求解 , 因此 实践 中 常 采用 变 分 
在 模 型 已 知 , 即 参 数 a 和 7 已 确定 , 则 根据 词 频 tt 来 推断 文档 集 所 对 应 

的 话题 结构 ( 即 推断 Ot, Bk 和 zi) 可 通过 求解 

p(W,z, 8,9 | oO, n) 
p(W | oa, 7) 

然而 由 于 分 母 上 的 p(W |an) 难以 获取 , 式 (14.44) 难 以 下 接 求 解 , 因此 在 实践 

中 常 采用 吉 布 斯 采样 或 变 分 法 进行 近似 推断 . 


p(z, 避 ,日 | W,a,n) = (14.44) 


14.7 阅读 材料 


概率 图 模型 方 重 已经 有 专门 的 书籍 如 [Koller and Friedman, 2009]. 


[Pearl, 1982] 倡导 了 贝 叶 斯 网 的 研究 , [Pearl, 1988] 对 这 方面 的 早期 研究 工 
VERETT T RAG. 马尔 可 去 随机 场 由 |[Geman and Geman, 1984] 提出 . 现实 应 用 
中 使 用 的 模型 经 党 是 贝 叶 斯 网 与 马尔 可 夫 随 机 场 的 结合 . Ba oR A] KRAUL RR 
其 在 语音 识别 中 的 应 用 可 参阅 [Rabiner, 1989]. 条 件 随机 场 由 [Lafferty et al., 
2001] 提出 , 更 多 的 内 容 可 参阅 [Sutton and McCallum, 2012]. 
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叶 斯 学 习 方 法 的 重要 发 展 . 

贝 叶 斯 学 习 参 见 p.164. 

LSA 是 SVD 在 文本 数据 
上 的 变 体 . 


Æ JL p.266. 
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信念 传播 算法 最 早 由 [Pearl, 1986] 作为 精确 推断 技术 提出 ,后 来 衍生 出 
多 种 近似 推断 算法 对 一 般 的 带 环 图 , 信念 传播 算法 需 在 初始 化 、 消 息 传 递 
等 环节 进行 调整 , 由 此 形成 了 友人 代 信 念 传播 算法 (Loopy Belief Propagation) 
[Murphy et al., 1999], 但 其 理论 性 质 尚 不 清楚 , 这 方面 的 进展 可 参阅 [Mooij 
and Kappen, 2007; Weiss, 2000]. 有 些 和 市 环 图 可 先 用 “因子 图 ”(factor graph) 
[Kschischang et al., 2001] H, 再 转化 为 因子 树 (factor tree) 进行 信念 传播 . 对 
任意 图 结构 的 信念 传播 已 有 一 些 研究 [Lauritzen and Spiegelhalter, 1988]. 近来 
随 看 并行 计算 技术 的 发 展 , 信念 传播 的 并 行 加 速 实现 受到 关注 , 例如 [Gonzalez 
et al., 2009] 提出 re 近似 推断 的 概念 并 设计 出 多 核 并 行 信 念 传播 算法 , 其 时 间 
开销 随 内 核 数 的 增加 而 线性 降低 . 

慑 率 图 模型 的 建 模 和 推断 , 尤其 是 变 分 推断 在 20 世纪 90 年 代 中 期 逐步 发 
展 成 熟 , [Jordan, 1998] 对 这 个 阶段 的 主要 成 果 进 行 了 总 结 . 关于 变 分 推断 的 更 
多 内 容 可 参阅 [Wainwright and Jordan, 2008]. 

图 模型 带 来 的 一 大 好 处 是 使 得 人 们 能 直观 、 人 快速 地 针对 具体 任务 定义 模 
型 . LDA [Blei et al., 2003] 是 这 方面 的 重要 代表 , 由 它 产 生 了 很 多 变 体 , 关于 这 
方面 的 内 容 可 参阅 [Blei, 2012]. 概率 图 模型 的 一 个 发 展 方 向 是 使 得 模型 的 结构 
能 对 数据 有 一 定 的 自 适应 能 力 , 即 “ 非 参数 化 ”(non-parametric) 方法 , 例如 层 
URAL AK AY Ge R a a FAY [Teh et al., 2006|、 无 限 隐 特征 模型 [Ghahramani and 
Griffiths, 2006] 等 

话题 模型 包含 了 多 种 模型 , 其 中 有 些 并 不 采用 贝 叶 斯 学 习 方 法 , 例如 PLSA 
(概率 隐语 义 分 析 ) [Hofmann, 2001], 它 是 LSA (隐语 义 分 析 ) 的 概率 扩展 . 

蒙特 卡 罗 方 法 是 二 十 世纪 四 十 年 代 产 生 的 一 类 基于 概率 统计 理论 、 使 用 
随机 数 来 解决 问题 的 数值 计算 方法 , MCMC 是 马尔 可 夫 链 与 蒙特 卡 罗 方 法 的 
结合 , 最 早 由 [Pearl, 1987] 引入 贝 叶 斯 网 推 朵 . 关于 MCMC 在 概率 推 崭 中 的 应 
用 可 参阅 [Neal, 1993], 更 多 关于 MCMC 的 内 容 可 参阅 [Andrieu et al., 2003; 
Gilks et al., 1996]. 


习题 


14.3 


14.4 


14.5 


14.6 


14.7 


14.8 


14.9* 
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TAF Ht IAS AS RF BL BF I SP Be ik 


试 证 明 图 模型 中 的 局 部 马尔 可 夫 性 : 给 定 茶 变量 的 邻接 变量 , 则 该 变 
量 条 件 独 立 于 其 他 变量 . 


试 证 明 图 模型 中 的 成 对 马尔 可 夫 性 : 给 定 其 他 所 有 变量 , 则 两 个 非 邻 
接 变 量 条 件 独 并 . 


试 述 在 马尔 可 去 随机 场 中 为 何 仅 需 对 极 大 团 定 义 势 函数 . 
比较 条 件 随 机 场 和 对 率 回 归 , 试 析 其 异同 . 


试 证 明 变 量 消去 法 的 计算 复杂 度 随 图 模型 中 极 大 团 规 模 的 增长 而 呈 
指数 增长 , 但 随 结 点数 的 增长 未 必 呈 指数 增长 . 


吉 布 斯 采样 可 看 作 MH 算法 的 特例 , 但 吉 布 斯 采样 中 未 使 用 “拒绝 采 
样 ”策略 , 试 述 这 样 做 的 好 处 


平均 场 是 一 种 近似 推断 方法 . 考虑 式 (14.32), 试 析 平 均 场 方法 求解 的 
近似 问题 与 原 问 题 的 差异 , 以 及 实践 中 如 何 选择 变量 服从 的 先 验 分 布 . 


从 网 上 下 载 或 自己 编程 实现 LDA, 试 分 析 金 庸 作品 《天 龙 八 部 》 中 
每 十 回 的 话题 演变 情况 . 


试 设计 一 个 无 须 事先 指定 话题 数目 的 LDA 改进 算法 . 
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休息 一 会 儿 


a) 1.5 节 . 


ti e manr 
励 那 些 拓宽 了 计算 机 科学 ， 
或 架设 了 计算 机 科学 与 其 
他 学 科 桥 梁 的 讲 越 科学 
家 ,该 奖 以 图 灵 奖 得 主 、 
人 人 工 智 能 先驱 Allen Newell 
(1927-1992) 命名 . 机 器 
学 习 界 的 另 一 位 著名 学 者 
Michael Jordan 在 2009 年 
RER. 
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小 故事 : E A Bl BEE A RE E > BYR 

说 起 概率 图 模型 , MALAE ARARE HAMAS 
RAI TW - HAR (Judea Pearl, 1936— ). HAR WAFS RE 
HEK, 1960 4F Hh Ze DA E Fi BE OF Be Ha FL FE AN AL EP OJ KR 
到 美国 , 在 Rutgers 大 学 和 和 布鲁克 林 理 工学 院 分 别 获得 物理 
学 硕士 和 电子 工程 博士 学 位 . 1965 年 博士 毕业 后 进入 RCA 
研究 实验 室 从 事 超 寻 存 储 方面 的 工作 , 1970 年 到 加 州 大 学 洛杉矶 分 校 任教 
至 今 . 

早期 的 主流 人 工 智 能 研究 专注 于 以 逻辑 为 基础 来 进行 形式 化 和 和 推理, 但 这 
样 很 难 定量 地 对 不 确定 性 事件 进行 表达 和 处理. 珀 尔 在 二 十 世纪 七 十 年 代 将 概 
率 方 法 引入 人 工 智能 , 开创 了 贝 叶 斯 网 的 研究 , 提出 了 信念 传播 算法 , 催生 了 概 
率 图 模型 这 一 大 类 技术 , 他 还 以 贝 叶 斯 网 为 工具 开创 了 因果 推理 方面 的 研究 . 
由 于 对 人 工 智 能 中 概率 与 因果 推理 的 重大 贡献 , 他 获得 2011 FEARR, 此 前 他 
已 获 ACM 与 AAAI 联合 颁发 的 2003 FH AERA. ACM 评价 珀 尔 在 人 
工 管 能 领域 的 贡献 已 扩展 到 诸多 学 科 领 域 ，“ 使 统计 学 、 心 理学 、 医 学 以 及 社 
会 科学 中 因果 性 的 理解 产生 了 革命 性 的 变化 ”. 2011 年 珀 尔 还 获得 科学 哲学 领 
域 最 高 奖 拉 卡 托 斯 奖 . 

琐 尔 之 子 丹 尼 尔 是 《华尔街 日 报 》 驻 南亚 记者 ，“9 .11” 事 件 后 他 在 巴 
基 斯 坦 追 躁 报 道 激 进 武 装 组 织 时 被 旨 训 审讯 并 残 丽 地 斩首 , 此 事 震 惊 世 界 . A 
尔 此 后 筹办 了 坟 尼 尔 。 琐 尔 基 金 会 , 并 参与 了 很 多 致力 于 促进 世界 民族 和 平 共 
处 的 活动 . 


所 有 预测 模型 在 广义 
上 都 可 称 为 一 个 或 一 组 
“ILAJ” ， 但 规则 学 习 中 
的 “规则 ”是 狭义 的 , 事 
实 上 约定 俗 成 地 省 略 了 
“还 辑 ” 二 字 . 


在 数理 逻辑 中 “计生 
专 指 原 子 公 式 (atom) 及 其 
和 否定， 


Biss 规则 学 习 


15.1 基本 概念 


Dias FPA “AU” (rule) aii AY ae Fat He SC OHA A. Re Fi AS A od A PT 
隐 舍 的 客观 规律 或 领域 概念 、 可 与 成 “ 若 :…… ， 则 …… ” 形 陈 的 多 辑 规则 
[Fiirnkranz et al., 2012]. “规则 学 习 ”(rule learning) 是 从 训练 数据 中 学 习 出 
一 组 能 用 于 对 未 见 示 例 进行 判别 的 规则 . 

形式 化 地 看 , 一 条 规则 形 如 : 


Bec ff AfoA---Afz , (15.1) 


FCPS a ae Ts “e” AIPA “RIA” (body), 表示 该 条 规则 的 前 
ft, 左边 部 分 称 为 “规则 头 ”(head), 表示 该 条 规则 的 结果 . 规则 体 是 由 逻辑 
MF (literal) fi 组 成 的 合 取 式 (conjunction), 其 中 合 取 符号 “人 入 ”用 来 表示 “并 
H”. 每 个 文学 fk 部 是 对 示例 属性 进行 检验 的 布尔 表达 式 , PIO “(6 
fe)” BK “A(R PTE)” | L 是 规则 体 中 膛 辑 文字 的 个 数 , 称 为 规则 的 长 度 . 
规则 头 的 “四 ”同样 是 逐 辑 文字 , 一 般 用 来 表示 规则 所 判定 的 目标 类 别 或 概念 ， 
例如 “好 瓜 ”. 这 样 的 逻辑 规则 也 被 称 为 “让 then 规则 ”. 

与 神经 网 络 、 支 持 向 量 机 了 这样 的 “黑箱 模型 ” 相 比 , 规则 学 习 有 具有 更 好 的 
可 解释 性 , 能 使 用 户 更 直观 地 对 判别 过 程 有 所 了 解 . 男 一 方面 , 数理 迪 辑 具有 
极 强 的 表达 能 力 , 绝 大 多 数 人 类 知识 都 能 通过 数理 邮 辑 进行 简洁 的 刻画 和 表达 . 
例如 “父亲 的 父亲 是 第 第 ”了 这样 的 知识 不 易 用 函数 式 描 述 , 而 用 一 阶 远 辑 则 可 
FEM BA “SX, VY) 全 R(X, Z) 人 父亲 (2Z,Y)”, 因此 , 规则 学 习 能 更 
目 然 地 在 学 习 过 程 中 引入 领域 知识 . 此 外 , 人 运 辑 规则 的 抽象 手 述 能 力 在 处 理 一 
we Tay ESSARY AI 任务 时 具有 显著 的 优势 , 例如 在 问答 系统 中 有 了 时 可 能 过 到 非 
党 多 、 甚 至 无 穷 种 可 能 的 答案 , 此 时 若 能 基于 逻辑 规则 进行 抽象 表述 或 者 推理 ， 
则 将 带 来 极 大 的 便利 . 

假定 我 们 从 西瓜 数据 集 学 得 规则 集合 R : 


规则 1: 好 瓜 二 GRR = ees) A ( 脐 部 = 四 陶 ); 
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西瓜 数据 集 2.0 JL p.76 
$ 4.1. 


集成 学 习 套 见 第 8 章 ， 


PAR “SRAM” , 可 
认为 是 一 种 特殊 的 元 规则 . 


第 15 章 规则 学 习 
规则 2: 一 好 瓜 所 (纹理 = 模糊 ) . 


规则 1 的 长 度 为 2, 它 通 过 判断 两 个 逻辑 文字 的 赋值 (valuation) 来 对 示例 进行 
判别 . 符合 该 规则 的 样本 (例如 西瓜 数据 集 2.0 中 的 样本 1) 称 为 被 该 规则 “ 恬 
mi” (cover). 需 注意 的 是 , 被 规则 1 履 盖 的 样本 是 好 瓜 , 但 没 被 规则 1 覆盖 的 未 
必 不 是 好 瓜 ; 只 有 被 规则 2 这 样 以 “一 EFI” SKA FS PAA AS AE PTL. 


显然 , 规则 集合 中 的 每 条 规则 都 可 看 作 一 个 子 模型 , 规则 集合 是 这 些 子 模 
型 的 一 个 集成 . 当 同 一 个 示例 被 判别 结果 不 同 的 多 条 规则 履 盖 时 , 称 发 生 了 
“IPR” (conflict), 解决 冲突 的 办 法 称 为 “冲突 消解 ”(conflict resolution). 第 
用 的 冲突 消解 策略 有 投票 法 、 排 序 法 、 元 规则 法 等 . 投票 法 是 将 判别 相同 的 规 
则 数 最 多 的 结果 作为 最 终结 果 . 排序 法 是 在 规则 集合 上 定义 一 个 顺序 , 在 发 生 
冲突 时 使 用 排序 最 前 的 规则 ; 相应 的 规则 学 习 过 程 称 为 “ 带 序 规 则 ”(ordered 
rule) 学 习 或 “优先 级 规则 ”(priority rule) 学 习 . 元 规则 法 是 根据 领域 知识 事先 
设 定 一 些 “ 元 规则 ”(meta-rule), 即 关 于 规则 的 规则 , 例如 “发 生 冲 突 时 使 用 
长 度 最 小 的 规则 ”, 然后 根据 元 规则 的 指导 来 使 用 规则 集 . 


此 外 , 从 训练 集 学 得 的 规则 集合 也 许 不 能 履 盖 所 有 可 能 的 未 见 示 例 , 例如 
前 述 规则 集合 R 无 法 对 “ 根 带 = 暴 顷 ”、“ 脐 部 = 和 半 ” 且 “纹理 = 清晰 ”的 
示例 进行 判别 ; 这 种 情 识 在 属性 数目 很 多 时 和 出 现 . 因此 , 规则 学 习 算 法 通常 会 
设置 一 条 “默认 规则 ”(default rule), 由 它 来 处 理 规则 集合 未 才 盖 的 样本 ; 例如 
为 丸 增 加 一 条 默认 规则 : “未 被 规则 1，2 攻 盖 的 都 不 是 好 瓜 ”. 


从 形式 语言 表达 能 力 而 言 , 规则 可 分 为 两 类 : “命题 规则 ”(propositional 
rule) 和 “一 阶 规则 ”(first-order rule)， 前 者 是 由 “原子 命题 ”(pPropositional 
atom) Aaa fee] “AB” (A). “BK” (Vv). “SE” (A “2a” (—) FI RY 
简单 陈述 人 句 ; 例如 规则 集 R wiz a RI SE, “AR eR” “TH 
陷 ” 都 是 原子 命题 . 后 者 的 基本 成 分 是 能 描述 事物 的 属性 或 关系 的 “原子 公 
式 ”(atomic formula), PURKE TRAMA ii (predicate) “(X,Y)” Wù 
是 原子 公式 , 再 如 表示 加 一 操作 “c(X) = X +1” HRM “o(X)” HERTS 
公式 . 如 果 进 一 步 用 谓词 “ 目 然 数 (X)” 表 示 X AEA PRE, “AVX” BAN “OTH 
任意 X MOL” , “IY” RP “FE Y 使 之 成 立 ”, 那么 “所 有 目 然 数 加 1 都 
是 自然 数 ” 就 可 写作 “YX3Y (自然 数 (Y) — 自然 数 (X)A(7 = ca(X)))”，, 或 
更 简洁 的 “YX( 上 自然 数 (c(X)) 二 自然 数 (X))”. 这 样 的 规则 就 是 一 阶 规则 , 其 
H OX FU Y 称 为 逻辑 变量 ，“Y”“3” 分 别 表示 “任意 ”和 “存在 ”, 用 于 限定 
变量 的 取 值 范围 , PRA “E” (quantifier). 显然 , 一 阶 规则 能 表达 复杂 的 关 


15.2 PREA 


p.80 È 4.2 上 半 部 分 . 
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系 , 因此 也 被 称 为 “关系 型 规则 ”(relational rule). 以 西瓜 数据 为 例 , 若 我 们 简 
单 地 把 属性 当 作 谓词 来 定义 示例 与 属性 值 之 间 的 关系 , 则 命题 规则 集 R 可 改写 
为 一 阶 规则 集 R : 


规则 1: JRX) 二 ALAR X, WES) A 脐 部 (X, TBA) ; 
规则 2: ~F SAX) + ACHE CX, OR) . 


显然 , MERES ARSC FA ERA, 命题 规则 是 一 阶 规则 的 特例 , 因此 一 阶 规则 
的 笠 习 比 合 题 规 则 要 复杂 得 多 . 


15.2 PRRs 


ELNI 3 A H ts Ee AES a oS 2 YE PU SR. te EE 
HORE “JF ta a m” (sequential covering), 即 逐 条 归纳 : 在 训练 集 上 每 学 
到 一 条 规则 , Ba HS TR UE MI) se YI APE D E BR, 然后 以 剩 下 的 训练 样 例 组 
成 训练 集 重 复 上 述 过 程 . 由 于 每 次 只 处 理 一 部 分 数据 , 因此 也 被 称 为 “分 
冶 ”(separate-and-conquer) 策 略 . 

BRAT] EA apr red LMU A Ay a RS Ee FS ZS. 命题 规则 的 规则 体 是 对 样 
例 属 性 值 进行 评估 的 布尔 函数 , BO “CRS SR” “ERR < 0.2” SS, 规则 
头 是 样 例 类 别 . 序 贯 覆盖 法 的 关键 是 如 何 从 训练 集 学 出 单条 规则 . 显然 , 对 规 
MJ HER p, 产生 一 条 规则 就 是 寻找 最 优 的 一 组 逻辑 文字 来 构成 规则 体 ， 
这 是 一 个 搜索 问题 . 形式 化 地 说 , 给 定 正 例 集合 与 反例 集合 , 学 习 任 务 是 基于 
候选 文字 集合 F = {fe} KARR r. 在 命题 规则 和 学习 中 , 候选 文学 是 
形 如 “RR( 属 性 ;, 属性 值 ; ;)” 的 布尔 表达 式 , 其 中 属性 ; 表示 样 例 第 i 个 属性 ， 
属性 值 ; ; 表示 属性 ; 的 第 j 个 候选 值 , R(x, y) 则 是 判断 r y SHLAA R 
的 二 元 布尔 函数 . 

最 简单 的 做 法 是 从 空 规则 “@@ e” F, 将 正 例 类 别 作为 规则 头 , 再 逐个 
授 历 训练 集中 的 每 个 属性 及 取 值 , 尝试 将 其 作为 逻辑 文字 增加 到 规则 体 中 , 者 
能 使 当前 规则 体 仅 履 盖 正 例 , 则 由 此 产生 一 条 规则 , 然后 去 际 已 被 覆 六 的 正 例 
并 基于 剩余 样本 笠 试 生成 下 一 条 规则 . 

以 西瓜 数据 集 2.0 训练 集 为 例 , 首先 根据 第 1 个 样 例 生成 文字 “好 瓜 ” 和 
“色泽 = 青绿 ”加 入 规则 , 得 到 


好 瓜 二 (色泽 = 青绿 ). 
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为 简便 起 见 ， 本章 后 续 
部 分 不 考虑 否定 形式 的 还 
F, 即 仅 以 了 为 候选 
文字 ,不 考虑 OE, 


例如 不 含 任 何 属性 的 空 
规则 , EER PA FER, 就 
是 一 条 比较 一 般 的 规则 . 


例如 直接 以 某 样 例 的 属 
性 取 值 形成 规则 ,该 规则 
aA Stt, 就 是 一 条 
比较 特殊 的 规则 . 
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这 条 规则 覆盖 样 例 1, 6, 10 和 17, 其 中 有 两 个 正 例 和 两 个 反例 , 不 符合 “当前 
AAU RIE” KHR. 于 是 , 我 们 尝试 将 该 命题 瞧 换 为 基于 属性 “人 色泽” 
形成 的 其 他 原子 命题 , 例如 “ 色 详 = 乌黑 ”; 然而 在 这 个 数据 集 上 , 这 样 的 操作 
不 能 产生 符合 条 件 的 规则 . 于 是 我 们 回 到 “ 色 详 = 青绿 ”, 符 试 增加 一 个 基于 其 
他 属性 的 原子 命题 , OO “Rae —hesa” : 


好 瓜 +- (色泽 = 青绿 ) A (RAIS). 


该 规则 仍 履 盖 了 反例 17. 于 是 我 们 将 第 二 个 命题 替换 为 基于 该 属性 形成 的 其 他 
原子 命题 , PIG “Rail” : 


好 瓜 <— ( 色 洋 = 青绿 ) A (AR FAME). 


这 条 规则 不 履 盖 任何 反例 , BAENA TEP, EERE “SRT RUM 
WEP” WE. 因此 我 们 保留 这 条 规则 并 去 除 它 绑 兽 的 梓 例 6, 然后 将 剩 下 的 
9 个 样 例 用 作 训 练 集 . 如 此 继续 , 我 们 将 得 到 : 


规则 1: 好 瓜 e (色泽 = 青绿 ) A (HEE ARE); 
规则 2: 好 瓜 二 (色泽 = 青绿 ) A (CFE = THUD); 
规则 3: 好 瓜 +- (色泽 = 乌黑 ) 人 ( 根 蒂 = 蜘 缩 ); 
规则 4: 好 瓜 二 (色泽 = 乌黑 ) A (纹理 = 稍 糊 ). 


这 个 规则 集 覆 闸 了 所 有 正 例 , 未 覆盖 任何 反例 , 这 就 是 序 贯 覆盖 法 学 得 的 结果 . 


上 上 面 这 种 基于 穷尽 搜索 的 做 法 在 属性 和 候选 值 较 多 时 会 由 于 组 合 糙 
KET AS íT. 现实 任务 中 一 般 有 有 两 种 策略 来 庆生 规则 : 第 一 种 是 “ 目 项 
问 下 ”(top-down), 即 从 比较 一 般 的 规则 开始 ， 逐渐 添加 新 文字 以 缩小 规 
Wi) 42 m YO AB], 直到 满足 预定 条 件 为 止 ; 亦 称 为 “生成 -测试 ”(generate-then- 
test JA, Æ ABT “RRL” (specialization) MW. 第 二 种 策略 是 “上 自 底 回 
E” (bottom-up), 即 从 比较 特殊 的 规则 开始 , 逐渐 删除 文字 以 扩大 规则 上 禾 关 范 
围 , 下 到 满足 条 件 为 上 ; ORR A “BGR aKa” (data-driven) ¥, LAMM “ee 
化 ”(generalization) 的 过 程 . 93 — FP OR mg 22 78 m e Fl MAR EZ) ee  , 第 二 
种 策略 则 相反 ; Baer a AY E AaS EAE E ERT A a ee UW aA F 
训练 样本 较 少 的 情形 , 此 外 , 前 者 对 噪声 的 和 鲁 棒 性 比 后 者 要 强 得 多 . 因此 , 在 命 
题 规则 学 习 中 通 萤 使 用 第 一 种 策略 , 而 第 二 种 策略 在 一 阶 规则 学 习 这 类 假设 空 
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间 非 常 复 杂 的 任务 上 使 用 较 多 . 

下 面 以 西瓜 数据 集 2.0 训练 集 为 例 来 展示 目 顶 癌 下 的 规则 生成 万 法 . IC 
从 空 规则 “好 瓜 < 二 ”开始 , 逐一 将 “属性 = 取 值 ”作为 原子 命题 加 入 空 规则 进 
行 考察 . 假定 基于 训练 集 准 确 率 来 评估 规则 的 优 和 劣 , n/m 表示 加 入 茶 命 题 后 新 
规则 在 训练 集 上 的 准确 率 , 其 中 m 为 覆盖 的 样 例 总 数 , n 为 履 盖 的 正 例 数 .如 
15.1 所 示 , AW seve, “AHS” A ABH I” AAT 


准确 率 3/4. 
第 一 轮 候 选集 第 二 轮 候 选集 
色泽 二 青绿 (2/4) AR ir — BH 4G (2/2) 
泽 王 乌黑 (3/4 四 

CH=BROM A d as sega 

LF IN — = FR ie = eG ia (3/5) by ep — $5 HA (1/1) 
a fr = iR vm (4/6) ESS = w I5 (2/2) 
纹理 二 清晰 (4/6) 触感 二 硬 滑 (2/2) 
脐 部 一 止 陷 (3/ 和 两 轮 之 后 产生 单条 规则 : 

西瓜 数据 集 2.0 训练 集 . 
见 p.80 È 4.2 上 半 部 分 . 图 15.1 在 西瓜 数据 集 2.0 训练 集 上 “ 自 顶 向 下 ”生成 单条 规则 


将 属性 次 序 最 靠 前 的 逻辑 文字 “色泽 = 乌黑 ”加 入 空 规 则 , 得 到 
好 瓜 e (色泽 = 乌黑 ). 
然后 , 对 上 面 这 条 规则 有 覆盖 的 样 例 , 通过 第 二 轮 评 估 可 发 现 , 将 图 15.1 中 的 五 
个 逻辑 文字 加 入 规则 后 都 能 达到 100% 准确 率 , 我 们 将 覆盖 样 例 最 多 、 且 属性 
UR FP ie Se Bi Ae RE ee” AAA, 于 是 得 到 结果 
好 瓜 二 (色泽 = 乌黑 ) A (AR HSB). 
规则 生成 过 程 中 涉及 一 个 评估 规则 优 竺 的 标准 , 在 上 面 的 例子 中 使 用 的 标 


准 是 : 先 考 虑 规则 准确 率 , 准确 率 相同 时 考虑 履 盖 样 例 数 , 再 相同 时 考虑 属性 次 
FE. 现实 应 用 中 可 根据 具体 任务 情况 设计 适当 的 标准 . 
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决策 树 章 枝 参 见 4.3 F. 


统计 显著 性 检验 参见 
2.4 节 . 
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此 外 , 在 上 面 的 例子 中 每 次 仅 考虑 一 个 “最 优 ” 文 字 , 这 通常 过 于 贪心 , 易 
陷入 局 部 最 优 . 为 缓解 这 个 问题 , 可 采用 一 些 相 对 温和 的 做 法 , 例如 采用 “集束 
搜索 ”(beam search), 即 每 弱 保 留 最 优 的 b 个 逻辑 文字 , 在 下 一 轮 均 用 于 构建 
候选 集 , 再 把 候选 集中 最 优 的 个 留待 再 下 一 轮 使 用 . 图 15.1 中 者 采用 b= 2 
的 集束 搜索 , 则 第 一 轮 将 保留 准确 卒 为 3/4 的 两 个 过 和 辑 文 字 , 在 第 二 轮 评 信 后 
孢 能 获得 下 面 这 条 规则 , 其 准确 率 仍 为 100%, (Axe S 3 个 正 例 : 


好 瓜 <— ( 脐 部 = 止 陷 ) A AR IEA). 


由 于 序 吐 落 盖 法 简单 有 效 , 几乎 所 有 规则 学 习 算 法 都 以 它 为 基本 框架 . 它 
能 方便 地 推广 到 多 分 类 问题 上 , 只 需 将 每 类 分 别处 理 即 可 : 当 学 习 关 于 第 c 类 
的 规则 时 , 将 所 有 属于 类 别 c 的 样本 作为 正 例 , 其 他 类 别 的 样本 作为 反例 . 


15.3 Byte 


规则 生成 本 质 上 是 一 个 信心 搜索 过 程 , 需 有 一 定 的 机 制 来 缓解 过 拟 合 的 风 
险 , 最 常见 的 做 法 是 剪 棱 (pruning). 与 决策 树 相 似 , 剪 枝 可 发 生 在 规则 生长 过 
Fe, 即 “ 预 前 枝 ”, 也 可 发 生 在 规则 产生 后 , 即 “ 后 前 枝 ”. 通常 是 基于 某 种 
性 能 度量 指标 来 评估 增 / 删 逐 辑 文 字 前 后 的 规则 性 能 , 或 增 / 删 规则 前 后 的 规则 
集 性 能 , 从 而 判断 是 否 要 进行 前 校 . 

前 校 还 可 借助 统计 显著 性 检验 来 进行 . 例如 CN2 算法 [Clark and Niblett, 
1989] 在 预 剪 校 时 , 假设 用 规则 集 进 行 预测 必须 显著 优 于 直接 基于 训练 样 例 集 
后 验 概 率 分 布 进行 预 测 . 为 便于 计算 , CN2 使 用 了 似 然 率 统计 量 (Likelihood 
Ratio Statistics, 简称 LRS). S mi, mm- 分别 表示 训练 样 例 集 中 的 正 、 反 例 数 
H, mi, m DARA A (Se) ASTRA IELS RPA, WA 


(ata) m_ logs sa =a) l (15.2) 


(= TT ) TTL ae 


LRS = 2. (a logs 


这 实际 上 是 一 种 信息 量 指标 , 衡量 了 规则 ( 集 ) 覆 盖 样 例 的 分 布 与 训练 集 经 验 分 
AB Ze): LRS RR, 说 明了 采用 规则 ( 集 ) 进 行 预 测 与 直接 使 用 训练 集 正 、 反 例 
比率 进行 猜测 的 差别 越 大 ; LRS 越 小 , 说 明 规 则 ( 集 ) 的 效果 越 可 能 仅 是 偶然 现 
象 . 在 数据 量 比较 大 的 现实 任务 中 , 通常 设置 为 在 LRS 很 大 (例如 0.99) 时 CN2 
算法 才 停 止 规则 (和 集 ) 生 长 . 


15.3 Bye 


规则 学 习 中 常 称 为 “ 生 
长 集 ” (growing set) 和 
“前 枝 集 ” (pruning set). 


RIPPER 全 k Repeat- 
ed Incremental Pruning to 
Produce Error Reduction, 
WEKA 中 的 实现 称 为 
JRIP. 


图 15.2 中 重复 次 数 取 值 
k 时 亦 称 RIPPERK， 例 如 
RIPPERS 意味 着 天 三 5. 


基于 1IREP* 生成 规则 集 . 


后 处 理 . 
去 除 已 被 覆盖 的 样 例 . 
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Jan BY A ee AS FS I MR AE“ ET BY A” (Reduced Error Pruning, 简称 REP) 
[Brunk and Pazzani, 1991], 其 基本 做 法 是 : 将 样 例 集 划分 为 训练 集 和 验证 集 ， 
从 训练 集 上 学 得 规则 集 RJA EAT PO BS, 在 每 一 轮 穷 举 所 有 可 能 的 和 剪 术 操 
VE, 包括 删除 规则 中 某 个 文字 、 删 除 规则 结尾 文字 、 删 除 规则 尾部 多 个 文字 、 
删除 整 条 规则 等 , 然后 用 验证 集 对 喜 校 产生 的 所 有 候选 规则 集 进 行 评 佰 , 保留 
最 好 的 那个 规则 集 进 行 下 一 轮 剪 枝 , 如 此 继续 , 直到 无 法 通过 剪 术 提高 验证 集 
上 的 性 能 为 止 . 

REP 前 枝 通 常 很 有 效 [Brunk and Pazzani, 1991], 但 其 复杂 度 是 O(m4)， 
m 为 训练 样 例 数目 . IREP (Incremental REP) [Fiirnkranz and Widmer, 1994] 
将 复杂 度 降 到 O(m log? m), 其 做 法 是 : 在 生成 每 条 规则 前 , 先 将 当前 样 例 集 
划分 为 训练 集 和 验证 集 , 在 训练 集 上 生成 一 条 规则 r, 立即 在 验证 集 上 对 其 进 
{FREPSY A, 得 到 规则 r; 将 r mM PIS, 在 更 新 后 的 样 例 集 上 重复 上 
述 过 程 . 显然 , REP tr XT REIT BAL, 而 IREP 仅 对 单条 规则 进行 和 剪 术 ， 
因此 后 者 比 前 者 更 高 效 . 

若 将 剪 校 机 制 与 其 他 一 些 后 处 理 手段 结合 起 来 对 规则 集 进 行 优 化 , 则 往往 
能 获得 更 好 的 效果 . 以 著名 的 规则 学 习 算 法 RIPPER [Cohen, 1995] 为 例 , 其 泛 
化 性 能 超过 很 多 决策 树 算法 , 而 且 学 习 速 度 也 比 大 多 数 决策 树 算 法 更 快 , 奥妙 
BLE TFS BY 4 5 Ja FE CAAA AG 

RIPPER 算法 描述 如 图 15.2 Pras. 它 先 使 用 IREP* 89 4% BL il) AE a R 
ÆR. IREP* (Cohen, 1995] 是 IREP 的 改进 , 主要 是 以 MOR) 取代 了 
TREP 使 用 的 准确 率 作 为 规则 性 能 度量 指标 , 在 二 校 时 删除 规则 尾部 的 多 个 文 
F, 并 在 最 终 得 到 规则 集 之 后 再 进行 一 次 IREP 894%. RIPPER 中 的 后 处 理 机 


输入 : 训练 样 例 集 D; 
重复 次 数 天 . 

过 程 : 

1: R = IREP*(D); 

2: ¢ = 0; 

3: repeat 

4 R' = PostOpt(R); 

5 D; = NotCovered(R’, D); 

6: RR, = IREP*(D,); 

7: R=-RUR;: 

8: į = 4 + l; 

9: until į = k 

输出 : 规则 集 尺 


图 15.2 RIPPER. 算法 
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制 是 为 了 在 剪 枝 的 基础 上 进一步 提升 性 能 . 对 R 中 的 每 条 规则 ri, RIPPER 为 
它 产生 两 个 变 体 : 


er: T r BR, 用 IREP* 重新 生成 一 条 规则 mw, 该 规则 称 为 替 
换 规 则 (replacement rule); 


er : 对 ri 增加 文字 进行 特 化 , 然后 再 用 IREP* 剪 枝 生 成 一 条 规则 r”, 该 
规则 称 为 修订 规则 (revised rule). 


fe POR, 把 rr M r? DaS R PRR ri 之 外 的 规则 放 在 一 起 , 组 成 规则 集 R 和 
R”, 将 它们 与 及 一 起 进行 比较 , 选择 最 优 的 规则 集 保留 下 来 . Ca AEA 15.2 中 
算法 第 4 行 所 做 的 操作 . 

为 什么 RIPPER 的 优化 策略 会 有 效 呢 ? 原因 很 简单 : 最 初生 成 R 的 时 候 ， 
规则 是 按 序 生 成 的 , 每 条 规则 都 没有 对 其 后 产生 的 规则 加 以 考虑 , PR D 
算法 本 质 常 导致 算法 陷入 局 部 最 优 ; RIPPER 的 后 处 理 优 化 过 程 将 及 中 的 所 
有 规则 放 在 一 起 重新 加 以 优化 , 恰 是 通过 全 局 的 考虑 来 缓解 信心 算法 的 局 部 性 ， 
从 而 往往 能 得 到 更 好 的 效果 [Fiirnkranz et al., 2012]. 


15.4 一 阶 规则 学 习 


受 限 于 命题 逻辑 表达 能 力 ， 命题 规 则 学 习 难 以 处 理 对 象 之 间 的 “ 关 
系 ”(relation), 而 关系 信息 在 很 多 任务 中 非常 重要 . 例如 , 我 们 在 现实 世界 挑 
选 西 瓜 时 , 通常 很 难 把 水 果 挫 上 所 有 西瓜 的 特征 用 属性 值 描 述 出 来 , 因为 我 们 
很 难 判 断 : 色泽 看 起 来 多 深 才 叫 “ 色 泽 青 绿 ”? RRR SRA “RAT 
A”? 比较 现实 的 做 法 是 将 西瓜 进行 相互 比较 , 例如 ,， “上 瓜 工 的 颜色 比 瓜 2 更 
深 , 并 且 瓜 1 的 根 蒂 比 瓜 2 Ei” | 因此 “上 瓜 1 比 瓜 2 更 好 ”. 然而 , 这 已 超越 
了 命题 逻辑 的 表达 能 力 , 需 用 一 阶 逻辑 表示 , 并 且 要 使 用 一 阶 规则 学 习 . 

对 西瓜 数据 , 我 们 不 妨 定 义 : 


e 色泽 深度 : 乌黑 > 青绿 > RA; 

o Fk Hr Wee: WES > FAME > MERE, 

e WJ VUE: Ut > 浊 啊 > YAM; 

e 纹理 清晰 度 : 清晰 > FRE > 模糊 ; 
e AARRE: MIB > FAM] > 平坦 ; 
o ALERTER: 便 滑 > 软 粘 . 
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括号 内 数字 对 应 于 p.80 
表 42 中 的 样 例 编 号 . 


分 隔 线 上 半 部 分 为 背景 
知识 , 下 半 部 分 为 样 例 . 


这 样 的 规则 亦 称 为 一 阶 
还 辑 子 向 (clause). 


色泽 更 深 (2, 1) 
色泽 更 深 (2, 16) 


色泽 更 深 (15, 16) 
AS ir Ee (1, 6) 


fiir SESE (17, 7) 
AE, 1) 


AUE WEYL (17, 7) 
纹理 更 请 (1, 7) 


纹理 更 清 (15, 14) 
脐 部 更 四 (1, 6) 


脐 部 更 凹 (15， 10) 
触感 更 硬 (1, 6) 


和 触感 更 便 (17，6) 
更 好 (1, 10) 


更 好 (7, 14) 
eau 1) 


-更 好 (17 2) 


表 15.1 西瓜 数据 集 5.0 


色泽 更 深 (2, 6) 
色泽 更 深 (2, 17) 


色泽 更 深 (15, 17) 
dt kh 


根 蒂 更 赚 (17， 10) 
RL U2, 3) 


es EHL(17, 10) 
纹理 更 清 (1, 14) 


纹理 更 清 (15, 16) 
PREH, 7) 


AES, 16) 
触感 更 硬 (1, 7) 


触感 更 硬 (17， 7) 
ERC, 14) 


更 好 (7， 15) 
TRE AF(LO, 2) 


更 好 (17， 3) 


色泽 更 深 (2, 10) 
色泽 更 深 (3, 1) 


色泽 更 深 (17, 14) 
A 7 EWE (1, 10) 


根 蒂 更 婴 (17， 14) 
ME EV, 6) 


敲 声 更 沉 (17， 15) 
E AR, 16) 


纹理 更 清 (15, 17) 
脐 部 更 凹 (1, 10) 


脐 部 更 中 (17, 10) 


触感 更 硬 (1, 10) 


触感 更 硬 (17, 10) 
AELA 15) 


更 好 (7 16) 
一 更 好 (10, 3) 


一 更 好 (17, 6) 
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色泽 更 深 (2, 14) 
色泽 更 深 (3, 6) 


色泽 更 深 (17, 16) 
银 蒂 更 出 (1, 14) 


根 蒂 更 赚 (17， 15) 
WLP EVC, 7) 


敲 声 更 沉 (17, 16) 
net) 


纹理 更 清 (17 16) 
iF Ps SE LT(1, 15) 


膀 部 更 四 (17， 16) 
ful ES BA Agi (1, 15) 


触感 更 硬 (17, 15) 
AFC, 16) 


更 好 (7， 17) 
一 更 好 (10, 6) 


一 更 好 (17, 7) 


于 是 , 西瓜 数据 集 2.0 训练 集 就 转化 为 表 15.1 的 西瓜 数据 集 5.0. 这 样 的 
数据 直接 描述 了 样 例 间 的 关系 , 称 为 “关系 数据 ”(relational data), 其 中 由 
原样 本 属性 转化 而 来 的 “色泽 更 深 ”“ 根 带 更 贱 ” 等 原子 公式 称 为 “背景 知 
IR” (background knowledge)， 而 由 样本 类 别 转 化 而 来 的 基于 “更 好 ”“ 一 更 
好 ”的 原子 公式 称 为 关系 数据 样 例 (examples). 从 西瓜 数据 集 5.0 可 学 出 这 样 
的 一 阶 规 则 : 


(YX VY (更 好 (和 和) — thir Be X,Y) A PREUX, Y)) . 


显然 , 一 阶 规则 仍 是 式 (15.1) 的 形式 , 但 其 规则 头 、 规 则 体 都 是 一 阶 逻 辑 表 
AR, “更 好 (.,.)”、“ 根 蒂 更 里 (.,)”、“ 脐 部 更 凹 (.,.)” 是 关系 描述 所 对 应 
的 谓词 , 个 体 对 象 “ 瓜 1”、“ 瓜 2” 被 逻辑 变量 “X”、“Y” 替 换 . 全 称 量 
词 “v” 表 示 该 规则 对 所 有 个 体 对 象 都 成 立 ; 通常 , 在 一 阶 规则 中 所 有 出 现 的 变 
量 都 被 全 称 量词 限定 , 因此 下 面 我 们 在 不 影响 理解 的 情况 下 将 省 略 量词 部 分 . 
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统计 党 习 一 般 是 基于 

“fei” AT, 这 与 命 
MAF RPS HP, 此 类 学 
习 可 统称 为 “基于 命题 表 
示 的 学 习 ”. 
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一 阶 规则 有 强大 的 表达 能 力 , 例如 它 能 简洁 地 表达 递归 概念 , 如 
WUE (X,Y) — 更 好 (X, 2) 信 更 好 (2,Y) . 


一 阶 规则 学 习 能 容易 地 引入 领域 知识 , 这 是 它 相 对 于 命 逢 规则 学 习 的 男 一 
大 优势 . 在 命题 规则 学 习 乃 至 一 般 的 统计 学 习 中 , 若 欲 引入 领域 知识 , 通常 有 两 
种 做 法 : 在 现 有 属性 的 基础 上 基于 领域 知识 构造 出 新 属性 , 或 基于 领域 知识 设 
计 某 种 函数 机 制 (例如 正则 化 ) 来 对 假设 空间 加 以 约束 . 然而 , 现实 任务 中 并 非 
所 有 的 领域 知识 都 能 容易 地 通过 属性 重 构 和 函数 约束 来 表达 . 例如 , 假定 获得 
STRMGRAAIICR NMG X, 欲 通过 试验 来 肥 现 它 与 已 知 化 合 物 了 的 反应 
方程 式 . 我 们 可 多 次 重复 试验 , 测 出 每 次 结果 中 化 合 物 的 组 分 含量 . 虽然 我 们 
对 反应 中 的 未 知 元 素性 质 一 无 所 知 , 但 知 诈 一些 普 授 成 并 的 化 学 原理 , 例如 金 
属 原 子 一 般 产 生 离 子 键 、 氧 原子 之 间 一 般 都 是 共 价 键 等 , 并 且 也 了 解 已 知 元 素 
闻 可 能 发 生 的 反应 . 有 了 这 些 领 域 知识 , 重复 几 次 试验 后 就 不 难 学 出 了 基 和 YY 的 
反应 方程 式 , 还 可 能 推测 出 X 的 性 质 、 甚 至 发 现 新 的 分 子 和 元 素 . 类 似 这 样 的 
领域 知识 充斥 在 日 音 生 活 与 各 关 任 务 中 , 但 在 基于 命题 表示 的 学 习 中 加 以 利用 
AAE AS PH HE. 

FOIL (First-Order Inductive Learner) [Quinlan, 1990] 是 著名 的 一 阶 规则 
学 习 算 法 , CEMT A A me EAA AT PO AWA R, 与 15.2 Fp 
的 命题 规则 学 习 过 程 很 相似 . 但 由 于 逻辑 变量 的 存在 , FOIL 在 规则 生成 时 需 考 
谍 不 同 的 变量 组 合 . 例如 在 西瓜 数据 集 5.0 上 , 对 “更 好 (和 ,让 ”这 个 概念 , 最 
仍 的 衬 规 则 是 

更 好 (X,Y) e. 


接 下 来 要 考虑 数据 中 所 有 其 他 谓词 以 及 各 种 变量 搭配 作为 候选 文字 . 新 加 
入 的 文字 应 包 舍 至 少 一 个 已 出 现 的 变量 , 否则 没有 任何 实质 意义 . 在 这 个 例子 
中 考虑 下 列 候选 文 字 : 

色泽 更 深 (外 ,YY)， 色 泽 更 深 (Y, X)， 色 泽 更 深 (X, GT， 色泽 更 深 (2 X), 

色泽 更 深 (Y, 2Z)， 人 色泽 更 深 (2Z,Y)， 色 泽 更 深 (站, 久 )， 色 泽 更 深 (Y, 了 )， 

te Fr EC X,Y), 

mere BL X,Y), 


15.5 ”归纳 逻辑 程序 设计 


决策 树 的 信息 增益 参见 
42.17%. 


这 实质 上 与 类 别 不 平衡 
MAK, BIL 3.6 F, 
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FOIL 使 用 “FOIL 增益 ”(FOIL gain) 来 选择 文字 : 
= | ?六 十 B TT 
F_Gain = m+ x (108; wha + Te logs aa —) (15.3) 


其 中 , hy, rh 分 别 为 增加 候选 文字 后 新 规则 所 履 盖 的 正 、 反 例 数 ; my, m 为 
原 规则 覆盖 的 正 、 反 例 数 . FOIL 增益 与 决策 树 使 用 的 信息 增益 不 同 , 它 仅 考虑 
正 例 的 信息 量 , 并 且 用 新 规则 覆盖 的 正 例 数 作为 权重 . 这 是 由 于 关系 数据 中 正 
例 数 往往 远 少 于 反例 数 , 因此 通常 对 正 例 应 赋予 更 多 的 关注 

在 西瓜 数据 集 5.0 的 例子 中 只 需 给 初始 的 空 规则 体 加 入 
“色泽 更 深 (和 Y)” R REX, Y)” , 新 规则 就 能 覆盖 16 个 正 例 和 2 
个 反例 , 所 对 应 的 FOIL 增益 为 候选 最 大 值 16 x (logy 48 — logy 28) = 13.28. 假 
定 前 者 被 选中 , 则 得 到 


更 好 (X,Y) — 色泽 更 深 (X,Y). 


该 规则 仍 覆 六 2 个 反例 : “更 好 (15, 1)” 与 “更 好 (15, 6)” . TÆ, FOIL 像 命 
题 规则 学 习 那 样 继续 增加 规则 体 长 度 , 最 终生 成 合适 的 单条 规则 加 入 规则 集 . 
此 后 , FOIL 使 用 后 前 校对 规则 集 进 行 优 化 . 

若 人 允许 将 目标 谓词 作为 候选 文字 加 入 规则 体 , 则 FOIL 能 学 出 递归 规则 ; 
在 允 许 将 否定 形式 的 文字 of ERIRE, 则 往往 能 得 到 更 简洁 的 规则 集 . 

FOIL 可 大 臻 看 作 命 题 规则 学 习 与 归纳 逻辑 程序 设计 之 间 的 过 渡 , 其 自 顶 
各 下 的 规则 生成 过 程 不 能 支持 函数 和 逻辑 表达 式 收 在, 因此 规则 表达 能 力 仍 有 
不 足 ; 但 它 是 把 命题 规则 学 习 过 程 通过 变量 替换 等 操作 直接 转化 为 一 阶 规则 学 
习 , 因此 比 一 般 归 纳 逻 辑 程 序 设计 技术 更 高 效 . 


15.5 归纳 逻辑 程序 设计 


归纳 有 逻辑 程序 设计 (Inductive Logic Programming, 简称 ILP) 在 一 阶 规 则 
SS PSA T HRA RARE. 一 方面 , 这 使 得 机 器 学 习 系 统 具 备 卫 更 
为 强大 的 表达 能 力 ; 男 一 方面 , ILP 可 看 作用 机 器 学 习 技 术 来 解决 基于 背景 知 
识 的 逻辑 程序 (logic program) 归纳 , 其 学 得 的 “规则 ”可 被 PROLOG “6:32 94 
程序 设计 语言 直接 使 用 . 

然而 ,函数 和 逻辑 表达 式 明 套 的 引入 也 带 来 了 计算 上 的 巨大 挑战 . 例 
如 , 给 定 一 元 谓词 P 和 一 元 函数 f, 它们 能 组 成 的 文 宇 有 P(X), P(f(X)), 
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这 里 的 数字 是 瓜 的 编号 ， 
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P(f(f(X))) 等 无 穷 多 个 , 这 就 使 得 规则 学 习 过 程 中 可 能 的 候选 原子 公式 有 无 
穷 多 个 . 若 仍 采用 命题 罗 辑 规则 或 EOIL 学 习 那 样 自 顶 向 下 的 规则 生成 过 程 ， 
则 在 增加 规则 长 度 时 将 因 无 法 列举 所 有 候选 文字 而 失败 . 实际 困难 还 不 止 这 
些 , 例如 计算 FOIL 增益 需 对 规则 才 盖 的 全 部 正 反 例 计 数 , MOE SIA A eA 
辑 表达 陈 藤 和 套 之 后 这 也 变 得 不 可 行 . 
15.5.1 最 小 一 般 泛 化 

VA iS Ba RPP ATT A eS Ia] LEA A AE, 直接 将 一 个 或 多 个 正 例 
所 对 应 的 具体 事实 (grounded fact) 作 为 初始 规则 , 再 对 规则 逐步 进行 泛 化 以 增 
加 其 对 样 例 的 覆盖 率 . 泛 化 操作 可 以 是 将 规则 中 的 常量 蔡 换 为 逻辑 变量 , 也 可 
以 是 删除 规则 体 中 的 茶 个 文字 . 

以 西瓜 数据 集 5.0 为 例 , 为 简便 起 见 , 暂且 假定 “更 好 (X,Y)” 仅 决定 于 
(X,Y) 取 值 相同 的 关系 , 正 例 “更 好 (1,10)” 和 “更 好 (1,15)” 所 对 应 的 初始 
规则 分 别 为 


更 好 (1, 10) + WF E, 10) A 声音 更 沉 (1,10) 入 膀 部 更 凹 (1, 10) 
A 和 触感 更 便 (1, 10); 
更 好 (1,15) + AS Ae E e(l, 15) 入 脐 部 更 凹 (1,15) A 触感 更 人 硬 (1, 15). 


显然 , 这 两 条 规则 只 对 应 了 特殊 的 关系 数据 样 例 , 难以 具有 泛 化 能 力 . 因 
此 , 我 们 希望 把 这 样 的 “特殊 ”规则 转变 为 更 “一 般 ” 的 规则 . 为 达到 这 个 
目的 , 最 基础 的 技术 是 “最 小 一 般 泛 化 ”(Least General Generalization, faj ÆR 
LGG) [Plotkin, 1970]. 

给 定 一 阶 公 式 ri M ro, LGG 先 找 出 涉及 相同 谓词 的 文字 , 然后 对 文字 
中 每 个 位 置 的 常量 逐一 进行 考 罕 , 独 常 量 在 两 个 文字 中 相同 则 保持 不 变 , 记 
A LGG(t,t) = t; 否则 将 它们 替换 为 同一 个 新 变量 , 并 将 该 奉 换 应 用 于 公 去 
的 所 有 其 他 位 置 : Ee RE IK PATS AS J A A Be ap a A s, t, 新 变量 为 了, 则 记 为 
LGG(s,t) = V, 并 在 以 后 所 有 出 现 LGG(s,t) WASH V RRE. 例如 对 上 面 
例子 中 的 两 条 规则 , 先 比 较 “ 更 好 (1,10)” 和 “更 好 (1,15)”, 由 于 文字 中 常量 
“10” 关 “15”, 因此 将 它们 都 替换 为 了 了, 并 在 ri 和 rz 中 将 其 余 位 置 上 成 对 出 
现 的 “10” 和 “15” 都 替换 为 Y, 得 到 


Eg, Y) cia BR, Y) A 声音 更 沉 (1, 10) A PRB, Y) 
A 触感 更 便 (1, Y); 
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Hy 阅 [Lavrat and Dze- 
roski, 1993] 第 3 章 . 
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Hee (1,Y) AS i Se, Y) A RPI, Y) A fi, Y). 


然后 , LGG 忽略 rl 和 re 中 不 含 共同 谓词 的 文字 , 因为 若 LGG 包含 某 条 
公式 所 没有 的 谓词 , 则 LGG 无 法 特 化 为 那 条 公式 . 容易 看 出 , 在 这 个 例子 中 需 
忽略 “声音 更 沉 (1,10)” 这 个 文字 , 于 是 得 到 的 LGG 为 


更 好 (1 Y) e tee me, Y) A DAREN, Y) 入 触感 更 便 (1 YY). (15.4) 


式 (15.4) 仅 能 判断 瓜 1 是 否 比 其 他 瓜 更 好 . 为 了 提升 其 泛 化 能 力 , 假定 另 有 
一 条 关于 瓜 2 的 初始 规则 


更 好 (2, 10) -HEER (2,10) A HS A EE (2, 10) A 敲 声 更 沉 (2, 10) 
入 脐 部 更 凹 (2, 10) A 触感 更 硬 (2, 10) , (15.5) 


于 是 可 求 取 式 (15.4) 与 (15.5) 的 LGG. 注意 到 文字 “更 好 (2,10)” 和 

“更 好 (1,Y)” 的 对 应 位 置 同时 出 现 了 常量 “10” 与 变量 “Y”, 于 是 可 令 
LGG(10,Y) = 好 ,并 将 所 有 “10” 与 “六 ”成 对 出 现 的 位 置 均 替 换 为 到. 最 
ja, @ LGG(2,1) = X 并 删 去 谓词 不 同 的 文字 , MES PRALRAA HSN 
一 般 规则 : 


E(X, Yo) <— PR fir ERE CX, Yo) A WREX, Yo) A files BE AX, Y2). 


上 面 的 例子 中 仅 考 虑 了 肯定 文字 , 未 使 用 “一 ”符号 . 实际 上 LGG 还 能 进 
行 更 复杂 的 泛 化 操作 . 此 外 , 上 面 还 假定 “更 好 (X,7Y)” 的 初始 规则 仅 包 含 变 
量 同 为 (X,Y) 的 关系 , 而 背景 知识 中 往往 包含 其 他 一 些 有 用 的 关系 , 因此 许多 
ILP 系统 采用 了 不 同 的 初始 规则 选择 方法 . 最 常用 的 是 RLGG (Relative Least 
General Generalization) [Plotkin, 1971], 它 在 计算 LGG 时 考虑 所 有 的 背景 知 
识 , 将 样 例 e 的 初始 规则 定义 为 e K, 其 中 K 是 背景 知识 中 所 有 原子 的 合 取 . 

容易 证 明 , LGG 是 能 特 化 为 rt 和 rs 的 所 有 一 阶 公 式 中 最 特殊 的 一 个 : 不 
存在 既 能 特 化 为 ri 和 ro, 也 能 泛 化 为 它们 的 LGG 的 一 阶 公 式 vr’. 

在 归纳 逻辑 程 夺 设计 中 , 获得 LGG 之 后 , 可 将 其 看 作 单 条 规则 加 入 规则 
集 , 最 后 再 用 前 几 节 介绍 的 技术 进一步 优化 , 例如 对 规则 集 进 行 后 剪 校 等 . 


15.5.2 逆 归 结 
在 逻辑 党 中 “演绎 ”(deduction) 与 “上 归纳”(induction) 是 人 类 认识 世界 
的 两 种 基本 方式 . 大 致 来 说 , 演绎 是 从 一 般 性 规律 出 发 来 探讨 具体 事物 , 而 归纳 
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十 九 世 纪 英 国政 治 经 
济 学 家 和 哲学 家 W. S. 
Jevons 通过 数理 方法 论证 ， 
最 时 明确 指出 归纳 是 演绎 
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则 是 从 个 别 事物 出 发 概括 出 一 般 性 规律 . 一 般 数 学 定理 证 明 是 演绎 实践 的 代表 ， 
而 机 器 学 习 显 然 是 属于 归纳 的 范畴 . 1965 Œ, 逻辑 学 家 J. A. Robinson H, 
一 队 谓 词 演 算 中 的 演绎 推理 能 用 一 条 十 分 人 简洁 的 规则 拉 述 , 这 就 是 数理 地 辑 
FAA WA RH (resolution principle) [Robinson, 1965]. 二 十 多 年 后 , 计算 机 
科学 家 S. Muggleton 和 W. Buntine 针对 归纳 推理 提出 了 “ 逆 归 绪 ”(inverse 
resolution) [Muggleton and Buntine, 1988], 这 对 归纳 逻辑 程序 设计 的 发 展 起 到 
了 重要 作用 . 

基于 归结 原理 , 我 们 可 将 貌似 复 淋 的 逻辑 规则 与 背景 知识 联系 起 来 化 繁 为 
简 ; 而 基于 道 归 结 , 我 们 可 基于 背景 知识 来 发 明 新 的 概念 和 关系 . 下 面 我 们 先 以 
较为 简单 的 命题 演算 为 例 , 来 看 看 归结 、 逆 归结 是 怎么 回 事 . 

假定 两 个 逻辑 表达 式 Cy 和 Co AZ, 且 分 别 包含 了 互补 项 Li 与 L2; AK 
一 般 性 , $ L = Ly = 一 Lz, C1 = AVL, Co = BV oL. 归结 原理 告诉 我 们 , 通过 
演绎 推理 能 消去 L 而 得 到 “归结 项 ”C = AV B. 若 定义 析 合 范式 的 删除 操作 


(AV B)—{B} =A, (15.6) 
则 归结 过 程 可 表述 为 
C = (C1 — {L}) V (C2 — {-L)), (15.7) 
向 记 为 
C =C- C2. (15.8) 


图 15.3 E J AARE AHRR. 


AVL BV AL 
bb 


AVB 


图 15.3 归结 原理 例 示 


与 上 面 的 过 程 相反 , 逆 归 结 研究 的 是 在 已 知 C 和 某 个 Cs 的 情况 下 如 何 得 
到 CG Z j). 假定 已 知 C 和 Cn R Co, 则 由 式 (15.7), 该 过 程 可 表述 为 


C2 = (C — (Ci — LD)Y {2L} (15.9) 
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在 逻辑 推理 实践 中 如 何 实现 逆 归 结 呢 ? [Muggleton, 1995] 定义 了 四 种 完备 
的 逆 归 结 操作 . 车 以 规则 形式 p e q 等 价 地 表达 pV -9, 并 假定 用 小 写字 母 表 
示 有 逻辑 文 字 、 大 写字 母 表示 合 取 式 组 成 的 逻辑 子 句 , 则 这 四 种 操作 是 : 


pe ANB qA 


吸收 (absorption) : a (15.10) 
PFR (identification) : poate (15.11) 
Al #4J (intra-construction) : AA (15.12) 
互 构 (inter-construction) : a (15.13) 
MAE eh ES 这 里 我 们 用 X 表示 X AY, 在 数理 逻辑 里 写作 X LY. 上 述 规则 中 , X 的 子 


句 或 是 Y 的 归结 项 , 或 是 Y 的 某 个 子 句 的 等 价 项 ; 而 了 中 出 现 的 新 逻辑 文字 则 
可 看 作 通 过 归纳 学 到 的 新 命题 . 

归结 、 道 归结 都 能 容易 地 扩展 为 一 阶 逻 辑 形式 ; 与 命题 逻辑 的 主要 不 同 之 
处 是 , 一 阶 逻 辑 的 归结 、 逆 归结 通常 需 进 行 合 一 置换 操作 . 

“置换 ”(substitution) 是 用 某 些 项 来 蔡 换 迪 辑 表达 式 中 的 变量 .例如 
H 0 = {1/X,2/Y} 置换 “C = 色 洋 更 深 (X Y) A WEA E(X, Y)” Pfa Sl 
“Cl = C0 = 色泽 更 深 (1,2) A 散 声 更 沉 (1,2)”, 其 中 {X,Y} 称 为 8 的 作用 
域 (domain). 与 代数 中 的 置换 类 似 , 一 阶 逻辑 中 也 有 “复合 置换 ”和 “ 逆 置 
换 ”. 例如 先 用 9 = {Y/X} 4X FRAY, BA AH={1/YI 将 了 替换 为 1, 这 
样 的 复合 操作 记 为 goAigb 的 道 置 换 则 记 为 0t = {X/Y} 

“ 合 一 ”(unification) 是 用 一 种 变量 置换 令 两 个 或 多 个 逻辑 表达 式 相 
等 ， 例 如 对 “4 = 色泽 更 深 (1,X)” 和 “已 = 色泽 更 深 (Y,2)”, 可 用 0 = 
{2/X,1/Y} 使 “A9 = BO = 色泽 更 深 (1,2)”; UK A M B xe “TIA 
HJ” (unifiable), 7K OA AM BH “S — AT” (unifier). 大 6 是 一 组 一 阶地 
ARAR W 的 合 一 化 子 , HXI W 的 任意 合 一 化 子 6 均 存 在 相应 的 置换 入 使 
0 = ðo à, 则 称 5 为 W 的 “最 一 般 合 一 置换 ”或 “最 一 般 合 一 化 子 ”(most 
general unifier, 简 记 为 MGU), 这 是 归纳 逻辑 程序 中 最 重要 的 概念 之 一 . 例如 
“色泽 更 深 (1,Y)” 和 “色泽 更 深 (X,Y)” 能 被 0 = {1/X}, ga = {1/X,2/Y}, 
6, = {1/Z, Z/ X} @—, (AMA A 是 它们 的 MGU. 

一 阶 逻辑 进行 归结 时 , 需 利 用 合 一 操作 来 搜索 互补 项 LI 和 Leo. 对 两 个 一 
MERE C1 = AV Li 和 C2 = BV Lo, 各 存在 合 一 化 子 0 18 £10 = AL 29, 
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C= AYB AAFC 
5 JB (C = AV B) 等 价 . 
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则 可 对 其 进行 归结 : 


C = (C1 — {L1t)8 V (C2 — {L2})6 . (15.14) 


类 似 的 , 可 利用 合 一 化 子 对 式 (15.9) BEIT Hee BI — br IN waa. 基 
于 式 (15.8), GM Cy = C/C 和 Ca = C/C AW “VAR” (resolution quotient), 
TÆ, MUAY A tet te C 和 Cy 时 求 出 归结 商 C2. SSE Li © Ch, 假 


(Ci —{Li}f)diF- C ， (15.15) 


这 里 od, 的 作用 域 是 CL 中 所 有 变量 , WA vars(C1), 其 作用 是 使 C1 一 {Lil} 与 
C 中 的 对 应 文字 能 合 一 . S de 为 作用 域 是 vars(Z1) 一 vars(C1 一 {L1}) HE 
fk, Lo 为 归结 两 C2 中 将 被 消去 的 文学 , 0 是 以 vars(L2) 为 作用 域 的 置换 , de 
与 办 共同 作用 于 Li, 使 得 -Digli e dg = Lobe, 于 是 加 ootgbo 为 一 5 与 工 ? 
的 MGU. 将 前 两 步 的 复合 置换 内 o bo 记 为 ,用 0 EAR Oo WB, WA 
(~L101)03' = Lo. FÆ, 类 似 于 式 (15.9), 一 阶 道 归结 是 


Cz = (C — (Ci — {L1} VT{ 一 1011)97 7 . (15.16) 


在 一 阶 情 形 下 Lis Las 01 和 62 的 选择 通 负 都 不 唯一 , 这 时 南通 过 一 些 其 他 的 
判断 标准 来 取舍 , 例如 禾 盖 率 、 唯 确 率 、 人 信息 烂 等 . 


以 西瓜 数据 集 5.0 为 例 , 假定 我 们 通过 一 些 步 骤 已 得 到 规则 


Cn = Br, X) 全 eae Se, X) 入 纹理 更 清 (1, X); 
C2 一 更 好 (1,Y) — Ma eI, Y) A eee eT, Y). 
BAG WEENIE “p< AAB” A “pe AAC” WER, 于 是 可 使 用 内 构 操 作 
式 (15.12) RETF BUA. 由 于 Cl, Co 中 的 谓词 都 是 二 元 的 , 为 保持 新 规则 摘 
述 信 息 的 完整 性 , 我 们 创造 一 个 新 的 二 元 谓词 g(M, N), 并 根据 式 (15.12) 得 到 
C' 一 更 好 (1,2) «+ Whe SRE, Z) Ag(M,N), 


式 (15.12) 中 横 线 下 方 的 另 两 项 分 别 是 C/C 和 C/C 的 归结 商 . 对 C/C, 
容易 发 现 C' 中 通过 归结 消去 Zi 的 选择 可 以 有 “一 根 带 更 嫌 (1,23)” 和 


15.6 ”阅读 材料 


奥 卡 姆 剃刀 原则 秦 见 
147. 


AQ 是 Algorithm Quasi- 
optimal 4) 445. 


决策 树 的 每 个 叶 结 点 对 
应 一 个 等 价 类 . 


WEKA 中 有 PRISM 的 
实现 ， 


RIPPER 达到 了 上 比 C4.5 
决策 树 既 快 又 好 的 效果 . 
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“9(M,N)” . 9 是 新 发 明 的 谓词 , 迟早 需 学 习 一 条 新 规则 “g(M,N) <<?” 
来 定义 它 ; 根据 奥 卡 姆 剃刀 原则 ,同等 描述 能 力 和 下 学 得 的 规则 越 少 越 
好 , 因此 我 们 将 aqg(M,N) 作为 Li. 由 式 (15.16),， 存在 解 : Le = q(1, 5), 
oi = {X/Z}, $2 = {1/M, X/N}, 62 = {X/S}. iit fi HF OY dee HEB AY RK 
出 归结 商 为 “g(1, S) — 纹理 更 清 (1, 5S)”. 类 似 地 可 求 出 C2/C" 的 归结 商 
“g(1, 了 T 了 ) e EEN, T)”. 

道 归结 的 一 大 特点 是 能 自动 发 明 新 谓词 , 这 些 新 谓词 可 能 对 应 于 样 例 属性 
和 背景 知识 中 不 存在 的 新 知识 , 对 知识 发 现 与 精 化 有 重要 意义 . 但 自动 发 明 的 
新 谓词 究竟 对 应 于 什么 语义 , 例如 “gq” 意味 看 “更 新 鲜 ”? “EM”? “更 多 
HI” ? -……- 这 只 能 通过 使 用 者 对 任务 领域 的 进一步 理解 才能 明确 . 

上 面 的 例子 中 我 们 只 介绍 了 如 何 基 于 两 条 规则 进行 逆 归 结 ， 在 现实 任务 
中 , ILP 系统 通常 先 自 底 向 上 生成 一 组 规则 , 然后 再 结合 最 小 一 般 泛 化 与 逆 归 
结 做 进一步 学 习 . 


15.6 阅读 材料 

规则 学 习 是 “和 从 号 主义 学 习 ”(symbolism learning) h EERE, 是 最 早 开 
始 研 究 的 机 器 学 习 技 术 之 一 [Michalski, 1983]. [Fiirnkranz et al., 2012] 对 规则 
学 习 做 了 比较 全 面 的 总 结 . 

序 贯 覆盖 是 规则 学 习 的 基本 框架 , 最 早 在 [Michalski, 1969] 的 AQ 中 被 
提出 , AQ 后 来 发 展 成 一 个 算法 族 , 其 中 比较 著名 的 有 AQ15 [Michalski et al., 
1986]、AQ17-HCI [Wnek and Michalski, 1994] 等 ， 受 计算 能 力 的 制约 , 早期 
AQ 在 学 习 时 只 能 随机 挑选 一 对 正 反 例 作 为 种 子 开始 训练 , 样 例 选择 的 随机 性 
导致 AQ FJARA AE. PRISM [Cendrowska, 1987] 解决 了 这 个 问题 , 该 算 
法 最 早 采用 上 自 顶 问 下 搜索 , 并 显示 出 规则 学 习 与 决策 树 学 习 相 比 的 优点 : 决策 
树 试 图 将 样本 空间 划分 为 不 重 登 的 等 价 类 , 而 规则 学 习 并 不 强求 这 一 点 , 因此 
后 者 学 得 的 模型 能 有 更 低 的 复杂 上 度 . 虽然 PRISM 的 性 能 不 如 AQ, 因此 在 当时 
反响 不 大 , 但 今天 来 看 , 它 是 规则 学 习 领 域 发 展 的 重要 一 步 . 

CN2 [Clark and Niblett, 1989] 采用 集束 搜索 , 是 最 时 考虑 过 拟 合 问题 的 规 
则 学 习 算 法 . [Fiirnkranz, 1994] 显示 出 后 剪 枝 在 缓解 规则 学 习 过 拟 合 中 的 优势 . 
RIPPER [Cohen, 1995] 是 命题 规则 学 习 技 术 的 高 峰 , 它 融 合 了 该 领域 的 许多 技 
巧 , 使 规则 学 习 在 与 决策 树 学 习 的 长 期 竞争 中 首次 占据 上 风 , 作者 主页 上 的 C 
语言 RIPPER 版 本 至 今 仍 代 表 厦 命题 规则 学 习 的 最 高 水 平 . 

关系 学 习 的 研究 一 般 认 为 始 于 [Winston, 1970]; 由 于 命题 规则 学 习 很 难 完 
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知识 工程 与 专家 系统 参 
见 1.5 节 . 
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成 此 类 任务 , 一 阶 规 则 学 习 开 始 得 以 发 展 . FOIL 通过 变量 替换 等 操作 把 命题 规 
则 学 习 转 化 为 一 阶 规 则 学 习 , 该 技术 至 今 仍 有 使 用 , 例如 2010 年 卡耐基 梅 隆 大 
学 开展 的 “水 动 语言 学 习 ”(Never-Ending Language Learning, 简称 NELL) F 
划 即 采用 FOIL 来 学 习 自 然 语言 中 的 语义 关系 [Carlson et al., 2010]. 很 多 文献 
将 所 有 的 一 阶 规则 学 习 方 法 部 划 入 归纳 迎 辑 程序 设计 的 范畴 , 本 书 则 是 作 了 更 
为 严格 的 限定 . 

[Muggleton, 1991] 提出 了 “归纳 逻辑 程序 设计 ”(ILP) 这 个 术语 , 在 
GOLEM [Muggleton and Feng, 1990] 中 克服 了 许多 从 命题 逻辑 过 渡 到 一 阶 
逻辑 学 习 的 困难 , 并 确立 了 自 底 加 上 归纳 的 ILP 框架 . 最 小 一 般 泛 化 (LGG) 
最 早 由 [Plotkin, 1970] 提出 , GOLEM 则 使 用 了 RLGG. PROGOL [Muggleton, 
1995] É i% VS 45 CE A wi 2k | (inverse entailment) 并 取得 了 更 好 效果 . 新 谓词 
发 明 方面 近年 有 一 些 新 进展 [Muggleton and Lin, 2013]. 由 于 ILP 学 得 的 规 
则 几乎 能 直接 被 PROLOG 等 还 辑 程 序 解释 器 调用 , 而 PROLOG 在 专家 系统 
中 种 被 使 用 , 因此 ILP 成 为 连接 机 器 学 习 与 知识 工程 的 重要 桥梁. PROGOL 
[Muggleton, 1995] 和 ALEPH [Srinivasan，1999] 是 应 用 广泛 的 ILP 系统 , 其 基 
本 思想 已 在 本 章 关 于 ILP 的 部 分 有 所 体现 . Datalog [Ceri et al., 1989] 则 对 数 
据 库 领域 产生 了 很 大 影响 , 例如 甚至 影响 了 SQL 1999 标准 和 IBM DB2. ILP 
方面 的 重要 读物 有 [Muggleton, 1992; Lavrač and Dzeroski, 1993], 并 且 有 专门 
的 国际 归纳 逻辑 程序 设计 会 议 (ILP). 

ILP 复杂 度 很 高 , 虽 在 生物 数据 挖 据 和 自然 语言 处 理 等 任务 中 取得 一 些 
成 功 [Bratko and Muggleton, 1995], 但 问题 规模 稍 大 就 难以 处 理 , 因此 , 这 方 
面 的 研究 在 统计 学 习 兴 起 后 受到 一 定 抑制 . 近年 来 随 大 机 器 学 习 技 术 进 入 更 
多 应 用 领域 , 在 富 合 结构 信息 和 领域 知识 的 任务 中 , 逻辑 表达 的 重要 性 逐渐 凸 
THX, 因此 出 现 了 一 些 将 规则 学 习 与 统计 学 习 相 结合 的 努力 , 例如 试图 在 归 
纳 逻 辑 程 序 设计 中 引入 概率 模型 的 “概率 归纳 迎 辑 程序 设计 ”(probabilistic 
ILP) [De Raedt et al., 2008]、 给 见 叶 斯 网 中 的 结 扣 赋予 运 辑 蕊 义 的 “关系 由 
叶 斯 网 ”(relational Bayesian network) [Jaeger, 2002] 等 . 事实 上 , 将 关系 学 习 
与 统计 学 习 相 结合 是 机 恬 学 习 发 展 的 一 大 趋势 , 而 概率 归纳 上 逻辑 程序 设计 是 
其 中 的 重要 代表 , 其 他 重要 代表 还 有 概率 关系 模型 [Friedman et al., 1999]. J 
叶 斯 逻辑 程序 (Bayesian Logic Program) [Kersting et al., 2000]. 37K A] REH 
网 (Markov logic network) [Richardson and Domingos, 2006] 等 , 统称 为 “统计 
天 系 学 习 ” (statistical relational learning) [Getoor and Taskar, 2007]. 


习题 


西瓜 数据 集 2.0 JL p.76 
4.1. 


西瓜 数据 集 2.00 IL p.86 
表 4.4. 


在 总 无 法 合 一 时 输出 
“LAR” . 


习题 


15.1 


15.2 


15.3 


15.4 


15.5 


15.6 


15.7 


15.8 


15.9* 


15.10* 
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对 西瓜 数据 集 2.0, 允许 使 用 否定 形式 的 文字 , 试 基于 目 顶 向 下 的 策略 
学 出 命题 规则 集 . 


对 西瓜 数据 集 2.0, 在 学 习 过 程 中 可 通过 删 去 文字 、 将 音量 蔡 换 为 变 
量 来 进行 规则 泛 化 , 试 基于 目 底 同上 的 策略 学 出 命题 规则 集 . 


从 网 上 下 载 或 自己 编程 实现 RIPPER. 算法 , 并 在 西瓜 数据 集 2.0 上 学 
出 规则 集 . 


规则 学 习 也 能 对 缺失 数据 进行 学 习 . 试 模仿 决策 树 的 缺失 值 处 理 方法 ， 
基于 订 贯 覆盖 在 西瓜 数据 集 2.0a 上 学 出 命题 规则 集 . 


从 网 上 下 载 或 自己 编程 实现 RIPPER 算法 , 允许 使 用 否定 形式 的 文 
F, 在 西瓜 数据 集 5.0 上 学 出 一 阶 规则 集 . 


对 西瓜 数据 集 5.0, 试 利用 归纳 迪 辑 程序 学 习 概 念 “更 坏 ( 关 ,YY )”. 


试 证 明 : 对 于 一 阶 公式 ri 和 re, 不 存在 既 能 特 化 为 rt 和 ro. th ABV 
化 为 它们 的 LGG 的 一 阶 公 陈 r. 


试 生成 一 个 西瓜 数据 集 5.0 的 LGG RF. 


一 阶 原 子 公 式 是 一 种 递归 定义 的 公式 , 形 如 P(t1, te,..-,tn), HF P 
是 谓词 或 函数 符号 , ti 称 为 “项 ”, 可 以 是 逻辑 稍 量 、 变 量 或 者 其 他 
原子 公式 . 对 一 阶 原 子 公式 E; 的 集合 S = (Fi, Fo,...,En}, 试 设计 
一 个 算法 求解 其 MGU. 


基于 序 贯 覆盖 的 规则 学 习 算 法 在 学 习 下 一 条 规则 前 , 会 将 已 被 当前 规 
则 集 所 覆盖 的 样 例 从 训练 集中 删 去 . 这 种 贪心 策略 使 得 后 续 学 习 过 程 
WM tts R DUERA int HPP, 在 判定 规则 履 兰 率 时 不 需 考 碟 前 后 规则 
同 的 相关 性 ; 但 该 江上 略 使 得 后 续 学 习 过 程 所 能 参考 的 样 例 越 来 越 少 . 
试 设计 一 种 不 删除 样 例 的 规则 学 习 算法 . 
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小 故事 : 机 器 学 习 先 驱 雷 萨 德 迈 克 尔 斯 基 

AQ 系列 算法 是 规则 学 习 研 究 早期 的 重要 成 果 , 主要 发 
明 人 是 机 器 学 习 先 驱 、 美 籍 波兰 裔 科学 家 雷 萨 德 。 迈克 尔 
斯 基 (Ryszard S. Michalski, 1937—2007). 

迈克 尔 斯 基 出 生 在 波兰 卡 鲁 兹 , 1969 年 在 波兰 获得 计 
算 机 科学 博士 学 位 , 同年 在 南斯拉夫 布 莱 德 (Bled, 现 属 斯 
洛 文 尼 亚 ) 举行 的 FCIP 会 议 上 发 表 了 AQ. 1970 年 他 前 往 美 国 UIUC 任教 , 此 
后 在 美国 进一步 发 展 了 AQ 系列 算法 . 迈克 尔 斯 基 是 机 器 学 习 领 域 的 主要 奠基 
人 之 一 . 1980 年 他 与 J. G. Carbonell. T. Mitchell 一 起 在 卡耐基 梅 隆 大 学 组 织 
了 第 一 次 机 器 学 习 研 讨 会 , 1983、1985 年 又 组 织 了 第 二 、 三 次 , 这 个 系列 研讨 
会 后 来 发 展 成 国际 机 器 学 习 会 议 (ICML); 1983 F, 迈克 尔 斯 基 作 为 第 一 主编 
出 版 了 《机 器 学 习 : 一 种 人 工 智能 途径 》 这 本 机 器 学 习 史 上 里 程 碑 性 质 的 著作 ; 
1986 年 Machine Learning 创刊 ,还 克 尔 斯 基 是 最 初 的 三 位 编辑 之 一 . 1988 年 
他 将 研究 组 迁 到 乔治 梅森 大 学 , 使 该 校 成 为 机 器 学 习 早 期 发 展 的 一 个 重镇 . 


亦 称 “ 再 励 学 习 ”. 


第 16 章 强化 学 习 


16.1 任务 与 奖赏 


我 们 考虑 一 下 如 何 种 西瓜 . 种 瓜 有 许多 步骤 , 从 一 开始 的 选 种 , 到 定期 浇 
7K. THE. BRE. RH, 经 过 一 段 时 间 才 能 收获 西瓜 . 通常 要 等 到 收获 后 , 我 们 
才 知 道 种 出 的 瓜 好 不 好 . 大将 得 到 好 瓜 作 为 辫 勤 种 瓜 劳 动 的 奖 鞭 , 则 在 种 瓜 过 
程 中 当 我 们 执行 条 个 操作 (例如 , 施肥 ) 时 , 并 不 能 立即 获得 这 个 最 终 奖 贫 , 甚至 
难以 判 靳 当前 操作 对 最 终 奖 蓉 的 影响 , 仪 能 得 到 一 个 当前 反馈 (例如 , J E E 
来 更 健壮 了 ). 我 们 需 多 次 种 瓜 , EP EP AN TR BR, 然后 才能 总 结 出 较 好 
的 种 瓜 策 略 . 这 个 过 程 抽 象 出 来 , 就 是 “强化 学 习 ”(reinforcement learning). 


16.1 强化 学 习 图 示 


图 16.1 给 出 了 强化 学 习 的 一 个 简单 图 示 . 强化 学 习 任 务 通 音 用 马尔 可 天 决 
策 过 程 (Markov Decision Process, 简称 MDP) 来 摘 述 : 机 器 处 于 环境 玖 中, 状 
STERA X, 其 中 每 个 状态 r E X FEAL AERA SI HA SE aA, 如 在 种 瓜 任 务 
Ext tee SBR A HA, 机 器 能 采取 的 动作 构成 了 动作 空间 A, 如 种 瓜 
过 程 中 有 次 水 、 施 不 同 的 肥 、 使 用 不 同 的 农药 等 多 种 可 供 选择 的 动作 ; 若 某 个 
动作 we A 作用 在 当前 状态 zx E, 则 潜在 的 转移 函数 已 将 使 得 环境 从 当前 状态 
按 某 种 概率 转移 到 男 一 个 状态 , 如 瓜 雷 状态 为 缺 水 , 者 选择 动作 演 水 , MIRER 
势 会 发 生变 化 , 瓜 苗 有 一 定 的 概率 恢复 健康 , 也 有 一 定 的 概率 无 法 恢复 ; 在 转移 
到 另 一 个 状态 的 同时 , PR SESSA GRP TEN “SRY” (reward) RIA RR 反馈 给 机 唤 
一 个 奖赏 , 如 保持 瓜 苗 健康 对 应 奖赏 +1, 瓜 苗 凋零 对 应 奖赏 一 10, 最 终 种 出 了 
好 瓜 对 应 奖赏 +100. 综合 起 来 , 强化 学 习 任务 对 应 了 四 元 组 E = (X, A, P, R), 
FPP: XxAxX e RJE STRARBBS*, RIX xXAXXH RBC STR 
Bi; 在 有 的 应 用 中 , ARAA PEM SRASRBARK, BR: Xx XOR. 

16.2 给 出 了 一 个 简单 例子 : ZAPU GEKA SRA ARE. 该 任务 中 
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p=0.4 ca. 
peat = r=1 a= KEK 
1 a= FR AK a= FR TK | me 
p=0.6 p=0.6 = 
f 一 一 ] r=! 
v, a=, 7K a= ie 7k 
a= 不 浇 ES ei a= i 7K 
p=0.4 a= Fi HK Nal r=-l A4= 浇 水 p=0.6 


图 16.2 给 西瓜 浇 水 问题 的 马尔 可 夫 决 策 过 程 


只 有 四 个 状态 (健康 、 缺 水 、 洲 水 、 调 亡 ) 和 两 个 动作 (这 水、 不 说 水 ), 在 每 一 
步 转移 后 , 若 状 态 是 保持 瓜 苗 健康 则 获得 奖 贫 1, JOE HR ZK aR KAR EE AY —1, 这 
时 通过 注水 或 不 演 水 可 以 恢复 健康 状态 , 当 瓜 百 凋 亡 时 奖 筑 是 最 小 值 — 100 H. 
无 法 恢复 . 图 中 箭头 表示 状态 转移 , TSK SSH a,p,7 分 别 表示 导致 状态 转移 的 
动作 、 转 移 概 率 以 及 返回 的 奖赏 . 容易 看 出 , 最 优 策略 在 “健康 ”状态 选择 动 
作 “ 演 水 ”、 在 “注水 ”状态 选择 动作 “不 注水”、 在 “ 缺 水 ”状态 选择 动 
作 “ 洲 水”、 在 “ 调 亡 ”状态 可 选择 任意 动作 . 


需 注 意 “ 机 器 ”与 “环境 ”的 界限 , 例如 在 种 西瓜 任务 中 , 环境 是 西瓜 生 
长 的 自然 世界 ; TE POZE, 环境 是 棋盘 与 对 手 ; 在 机 器 人 控制 中 , 环境 是 机 
aa A YS AS Sp EE FR. 总 之 , 在 环境 中 状态 的 转移 、 奖 车 的 返回 是 不 受 机 器 
控制 的 , 机 器 只 能 通过 选择 要 执行 的 动作 来 影响 环 十 , 也 只 能 通过 观察 转移 后 
的 状态 和 返回 的 奖 贫 来 感知 环境 . 

机 妖 要 做 的 是 通过 在 环境 中 不 断 地 尝试 而 学 得 一 个 “策略 ”(policy) n, 根 
据 这 个 策略 , 在 状态 xz 下 就 能 得 知 要 执行 的 动作 a = n(x), 例如 看 到 瓜 苗 状态 
是 缺 水 时 , 能 返回 动作 “流水 ”. 策略 有 两 种 表示 方法 : 一 种 是 将 策略 表示 为 
Kr: X e A, MEERE EHHA RR, 男 一 种 是 概率 表示 7 :XxA RR， 
随机 性 策略 常用 这 种 表示 , (x, a) 为 状态 x 下 选择 动作 a 的 概率 , 这 里 必须 有 
上 NM 二 二 

策略 的 优 乞 取决 于 长 期 执行 这 一 策略 后 得 到 的 累积 奖赏 , 例如 某 个 策略 使 
得 瓜 苗 枯死 , 它 的 累积 奖赏 会 很 小 , 另 一 个 策略 种 出 了 好 瓜 , 它 的 累积 奖赏 会 很 
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K. 在 强化 学 习 任 务 中 , 学 习 的 目的 就 是 要 找到 能 使 长 期 累积 奖赏 最 大 化 的 策 
略 . 长 期 累积 奖赏 有 多 种 计算 方式 , KAWEA “T Ree” EASL] ri] 
和 “> 折扣 累积 奖赏 ”下 [和 +ce ytre), 其 中 x 表示 第 上 步 获得 的 奖赏 值 , ER 
示 对 所 有 随机 变量 求 期 望 . 
读者 也 许 已 经 感觉 到 强化 学 习 与 监督 学 习 的 差别 . 若 将 这 里 的 “状态 ”对 
应 为 监督 学 习 中 的 “示例 ”、“ 动 作 ” 对 应 为 “标记 ”, 则 可 看 出 , 强化 学 习 
中 的 “策略 ”实际 上 就 相当 于 监督 学 习 中 的 “分 类 器 ”( 当 动作 是 离散 的 ) 或 
“回归 器 ”( 当 动作 是 连续 的 ), 模型 的 形式 并 无 差别 . 但 不 同 的 是 , 在 强化 学 
习 中 并 没有 监督 学 习 中 的 有 标记 样本 ( 即 “ 示 例 -标记 ”对 ), 换言之 , 没有 人 直 
接 告诉 机 器 在 什么 状态 下 应 该 做 什么 动作 , 只 有 等 到 最 终结 果 揭晓 , 才能 通过 
“反思 ”之 前 的 动作 是 否 正 确 来 进行 学 习 . 因此 , 强化 学 习 在 某 种 意义 上 可 看 
作 具 有 “延迟 标记 信息 ”的 监督 学 习 问 题 


16.2 五- 摇 臂 赌博 机 


16.2.1 探索 与 利用 

与 一 般 监 督 笠 习 不 同 , 强化 学习 任务 的 最 终 奖 疯 是 在 多 步 动 作 之 后 才能 观 
察 到 , 这 里 我 们 不 妨 先 考虑 比较 简单 的 情形 : 最 大 化 单 步 奖 芝 , 即 仅 考虑 一 步 
操作 . 需 注意 的 是 , 即便 在 这 样 的 简化 情形 下 , 强化 学 习 仍 与 监督 学 习 有 显著 不 
E, 因为 机 器 需 通 过 尝试 来 发 现 各 个 动作 产生 的 结果 , 而 没有 训练 数据 告诉 机 
器 应 当做 哪个 动作 . 

欲 最 大 化 单 步 奖赏 需 考 虑 两 个 方面 : 一 是 需 知 道 每 个 动作 带 来 的 奖赏 , 二 
是 要 执行 奖赏 最 大 的 动作 . 若 每 个 动作 对 应 的 奖赏 是 一 个 确定 值 , 那么 尝试 一 
遍 所 有 的 动作 便 能 找 出 奖赏 最 大 的 动作 . 然而 , 更 一 般 的 情形 是 , 一 个 动作 的 奖 
赏 值 是 来 自 于 一 个 概率 分 布 , 仅 通 过 一 次 尝试 并 不 能 确切 地 获得 平均 奖赏 值 . 

实际 上 , 单 步 强化 学 习 任 务 对 应 了 一 个 理论 模型 , 即 “ 天 - 播 崩 赌博 机 ” (五 - 
armed bandit). 如 图 16.3 Pras, 天 - 摊 臂 赌博 机 有 K AIRS, 财 徒 在 投入 一 个 
硬币 后 可 选择 按 下 其 中 一 个 播 臂 , 每 个 播 臂 以 一 定 的 概率 吐出 硬币 , 但 这 个 概 
率 赌 徒 并 不 知道 . 赌 徒 的 目标 是 通过 一 定 的 策略 最 大 化 目 己 的 奖赏 , 即 获得 最 
多 的 人 硬币 . 

在 仅 为 获知 每 个 播 臂 的 期 望 炎 黄 , 则 可 采用 “ 仅 探 索 ”(exploration- 
only) 法 : 将 所 有 的 和 莹 试 机 会 平均 分 配给 每 个 摇 臂 ( 即 轮流 按 下 每 个 摇 臂 ), 最 后 
以 每 个 摇 壁 各自 的 平均 吐 币 概率 作为 其 奖 黄 期 望 的 近似 估计 . eI A AT RE 
最 大 的 动作 , 则 可 采用 “ 仅 利用 ”(exploitation-only) 法 : 按 下 目前 最 优 的 ( 即 到 
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图 16.3 K-48 ILA TE 


目前 为 止 平均 奖赏 最 大 的 ) 摇 臂 , BAS MERA ARE, 则 从 中 随机 选取 一 个 . 
显然 ;“ 仅 探索 ”法 能 很 好 地 估计 每 个 摇 臂 的 奖赏 , 却 会 失去 很 多 选择 最 优 摇 
PALS; “ 仅 利 用 ”法 则 相反 , 它 疫 有 很 好 地 估计 摇 臂 期 望 奖 车 , 很 可 能 经 党 
EAS Be DC. 因此 , 这 两 种 方法 都 难以 使 最 终 的 累积 奖赏 最 大 化 . 

事实 上 ，“ 探 索 ”( 即 估计 摇 臂 的 优 舅 ) 和 “利用 ”( 即 选择 当前 最 优 摇 
臂 ) 这 两 者 是 矛盾 的 , 因为 尝试 次 数 ( 即 总 投 币 数 ) 有 限 , 加强 了 一 方 则 会 自 
然 前 弱 另 一 方 , 这 就 是 强化 学 习 所 面临 的 “探索 -利用 塞 卉 ”(Exploration- 
Exploitation dilemma). 显然 , 欲 累 积 奖 沉 最 大 , 则 必须 在 探索 与 利用 之 间 达 成 
较 好 的 折 中 . 
16.2.2 ce- 贪心 

ce- 贷 心 法 基于 一 个 概率 来 对 探索 和 利用 进行 折 中 : 每 次 尝试 时 , 以 e 的 概率 
进行 探索 , 即 以 均匀 概率 随机 选取 一 个 播 臂 ; 以 1 一 的 概率 进行 利用 , 即 选择 
当前 平均 奖赏 最 高 的 摇 辟 ( 告 有 多 个 , 则 随机 选取 一 个 ). 

S Qk) URKE k FHH. FRB k 被 尝试 了 n 次 , 得 到 的 奖赏 为 
V1, 02; .un APPR HN 


| l 
Q(k) = = X vi. (16.1) 

=] 
若 直 接 根 据 式 (16.1) 计 算 平 均 疾 赏 ， 则 需 记 录 n PR A. 显然 , 更 高 将 的 
做 法 是 对 均值 进行 增 量 式 计 算 , BU RSS A eB E Qk). 不 妨 用 下 标 来 
表示 尝试 的 次 数 , 初始 时 Qo(k) = 0. 对 于 任意 的 n 宇 1, 若 第 只 一 1 次 和 党 试 后 的 
ISR TEA Qn_1(k), 则 在 经 过 第 n KERR un Jn, 平均 奖赏 应 更 狐 为 


Qn(k) = ~((n — 1) x Qn_1(k) + tn) (16.2) 


16.2 K-78 Ba 


式 (16.3) 会 在 16.4.2 7 
中 用 到 ， 


Q(z) 和 count(é) HA! iz 
RAF i 047 1 A Fos 
中 次 数 . 


在 [0,1] 中 生成 随机 数 . 


本 次 尝试 的 奖赏 值 . 


式 (16.2) 更 新 平均 奖赏 ， 


= Qn-1(k) 十 = (un T Qn—ı(k)) l 
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(16.3) 


这 样 , 无 论 摇 臂 被 尝试 多 少 次 都 仅 需 记录 两 个 值 : 已 尝 斌 次数 n 1 和 最 近 平 均 
奖赏 QOn-1(k). ec- 贪心 算法 描述 如 图 16.4 Aras. 


WA: Hae K; 
奖赏 函数 R 
Ze WIKRE T 
探索 概率 € 
过 程 : 
l: r =Ù; 
2: Vi = 1,2,...K : Q(i) = 0, count(i) = 0; 
3: for t = 1,2,..., T do 
4: if rand()< e then 
5: k= M 1,2,..., K 中 以 均匀 分 布 随 机 选取 
6: else 
7: k = arg max; Q(t) 
8: end if 
9: v= Rk); 
10: r=r+v; 
I: Qk) = Txelo, 
12:  count(k) = count(k) + 1; 
13: end for 


输出 : 累积 奖赏 7 


16.4 ec- 贪 心算 法 


若 摇 辟 奖 赏 的 不 确定 性 较 大 , 例如 概率 分 布 较 宽 时 , 则 需 更 多 的 探索 , 此 时 


16.2.3 Softmax 


需要 较 大 的 e 值 ; 若 摇 臂 的 不 确定 性 较 小 , 例如 概率 分 布 较 集中 时 , 则 少量 的 尝 
试 就 能 很 好 地 近似 真实 奖赏 , 此 时 需要 的 e 较 小 . 通常 令 e 取 一 个 较 小 的 常数 ， 
如 0.1 或 0.01. 然而 , ASSIA RAE K, 那么 在 一 段 时 间 后 , 摇 臂 的 奖赏 都 能 
很 好 地 近似 出 来 , 不 再 需要 探索 , 这 种 情形 下 可 证 随 着 尝试 次 数 的 增加 而 逐 
渐 减 小 , 例如 令 ce = 1/vt. 


Softmax 算法 基于 当前 已 知 的 播 辟 平均 奖 蓉 来 对 探索 和 利用 进行 折 中 . E 


明显 高 于 其 他 揪 臂 , 则 它们 被 选取 的 概率 也 明显 更 高 . 


各 摇 辟 的 平均 奖 鞭 相当 , 则 选取 各 播 辟 的 概率 也 相当 ; 者 某 些 摇 辟 的 平均 奖 党 
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Softmax 算法 中 播 臂 概率 的 分 配 是 基于 Boltzmann 分 布 


Qe) 
P(k) = 


16.4 
K Qo ( ) 


其 中 , QO 记录 当前 摇 臂 的 平均 奖赏 ; r > 0 称 为 “温度 ”, r 越 小 则 平均 奖赏 
高 的 摇 臂 被 选取 的 概率 越 高 . 7 趋 于 0 时 Softmax 将 趋 于 “ 仅 利 用 ”, 7 HAF 
穷 大 时 Softmax 则 将 趋 于 “ 仅 探索 ”. Softmax 算法 描述 如 图 16.5 Aras. 


尝试 次 数 工 
该 参数 在 第 4 行使 用 . 温度 参数 T. 
过 程 : 
1: = 
Q(U) 和 count(i) 分 别 记 2: Vi = 1,2,...K : Q(i) = 0, count(i) = 0; 
i 3: for t = 1,2,..., T do 
次 数 . 4: ”二 从 1,2,...,K 中 根据 式 (16.4) 随 机 选取 
本 次 尝试 的 奖赏 值 . 5: v= R(k); 
6: r=Tr+u;: 
5 l Te pty: l A OO (k) x coun v, 
式 (16.2) 更 新 平均 奖赏 . 7, Q(k)=—2 一 ; 
8:  count(k) = count(k) + 1; 


9: end for 


输出 : 累积 奖赏 7 


16.5 Softmax 算 法 


ce- 贪心 算法 与 Softmax HIAAKAS, 主要 取决 于 具体 应 用 . 为 了 更 直观 
地 观察 它们 的 差别 , 考虑 一 个 简单 的 例子 : 假定 2- 摇 辟 赌 博 机 的 摇 辟 1 以 0.4 
的 概率 返回 奖赏 1, 以 0.6 的 概率 返回 奖赏 0; 播 避 2 以 0.2 的 概率 返回 奖 赞 1, 
以 0.8 的 概率 返回 奖赏 0. 16.6 显示 了 不 同 算法 在 不 同人 参数 下 的 平均 累积 
奖赏 ,其 中 每 条 曲线 对 应 于 重复 1000 次 实验 的 平均 结果 . 可 以 看 出 , Softmax 
(7 = 0.01) 的 曲线 与 “ 仅 利 用 ”的 曲线 几乎 重合 . 


对 于 离散 状态 空间 、 离 藤 动 作 衬 间 上 的 多 步 强化 学 习 任务 , 一 种 直接 的 办 
法 是 将 每 个 状态 上 动作 的 选择 看 作 一 个 K- 播 臂 赌博 机 问题 , 用 强化 学 习 任 务 
的 累积 奖赏 来 代替 五- 摇 臂 赌博 机 算法 中 的 奖赏 函数 , 即 可 将 赌博 机 算法 用 于 
每 个 状态 : 对 每 个 状态 分 别 记 录 各 动作 的 答 试 次 数 、 当 前 平均 累积 奖 革 等 信 
B, 基于 赌博 机 算法 选择 要 尝试 的 动作 . 然而 这 样 的 做 法 有 很 多 局 限 , 因为 它 没 


16.3 有 模型 学 习 


16.4 节 将 讨论 模型 未 知 
情形 . 
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£-F ets (e=0 a | ) o 


Softmax (t=0.1) 


-Gu (e=0.01) 


Soaftmasx (T=0 .017) 


平均 累积 奖赏 


O30 + 


OG SOO 1000 1500 2000 2500 S000 
1K, 7K aL 


16.6 不 同 算法 在 2- 摇 臂 赌博 机 上 的 性 能 比较 


有 考虑 强化 学 习 任 务 马尔 可 夫 决策 过 程 的 结构 . 在 16.3 节 将 会 看 到 , 若 能 有 效 
考虑 马尔 可 夫 决 策 过 程 的 特性 , 则 可 有 更 聪明 的 办 法 . 


16.3 有 模型 学 习 


考虑 多 步 强化 学 习 任 务 , 和 暂且 先 假 定 任 务 对 应 的 马尔 可 夫 次 策 过 程 四 元 组 
E = (X, A, P, RD) 均 为 已 知 , 这 样 的 情形 称 为 “模型 已 知 ”, 即 机 器 已 对 环境 进 
ÍT T EIR, 能 在 机 器 内 部 模拟 出 与 环境 相同 或 近似 的 状况 . 在 已 知 模型 的 环境 
中 学 习 称 为 “有 模型 学 习 ”(model-based learning). 此 时 , 对 于 任意 状态 r,r 
和 动作 a, 在 z 状态 下 执行 动作 a 转移 到 zx 状态 的 概率 Pa ,是 已 知 的 , 该 转 
PTR SR A KE RS, 也 是 已 知 的 . 为 便于 讨论 , AMERIKA IH X 和 动作 
空间 A 均 为 有 限 . 


16.3.1 策略 评估 


在 模型 已 知 时 , 对 任意 策略 r 能 估计 出 该 策略 带 来 的 期 望 累 积 奖 赏 . S 
RKA VT (r) 表示 从 状态 r 出 发 , 使 用 策略 r 所 市 来 的 累积 奖 贫 ; 函数 Q(z, a) 
表示 从 状态 z tH A, 执行 动作 a 后 再 使 用 策略 r 市 来 的 累积 奖 蓉 . 这 里 的 
V(-) RA “ARAB RA AL” (state value function), Q(-) 称 为 “状态 -动作 值 函 
4a” (state-action value function), a> 5 AN TRE “IRS” EWR “RK 
态 -动作 ”上 的 累积 奖赏 . 
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由 累积 奖赏 的 定义 , 有 状态 值 函 数 


we =E È Si rt | zo = z| , T RIRI, (16.5) 


Va (x) = | bees res | rg = x | ; “7 折扣 累积 奖赏 . 


ALB fas, Ja MEW Re ERR DS PP RR AAR AN, 就 不 再 说 明 奖 营 类 别 , 读者 
从 上 和 下文 应 能 容易 地 判 知 . $ ro 表示 起 始 状 态 , ao 表示 起 始 状态 上 采取 的 第 一 
个 动作 ; IFE T RRK, 用 下 标 t 表示 后 续 执 行 的 步 数 . 我 们 有 状态 -动作 
Jore a) = Er[$ Eia re | zo = £, a0 = a]; ee 

Q(z, a) = Er [Zio Yre | £o = z, 00 = al. 


由 于 MDP 具有 马尔 可 夫 性 质 , 即 系统 下 一 时 刻 的 状态 仅 由 当前 时 刻 的 状 
这 样 的 递归 等 式 称 为 


aie. SRE, 不 依赖 于 以 往 任 何 状 态 , 于 是 值 函数 有 很 简单 的 递归 形式 . 对 于 工 步 


T 
1 
VT (x) = Er FE» | 2 =a 
T' 
1 T—1 1 
= E; BE 


— , <3 
> Tz,0) >) Pe yw (7 zat + 7p Ee ade | za -| ) 


动作 - 状态 全 概率 展开 . 


UA rex 
是 一 山 
= Ð r(z,a) Ð Pte (FR + = VE) ) (16.7) 
acA TX/EEX 


FAN, XIT y 折扣 累积 奖 营 有 


V(x) = Ta) X PS (Roe + YYVT (2')). (16.8) 
acA CERK 
需 注意 的 是 , ERE PA REM, 才 可 以 进行 全 概率 展开 . 
读者 可 能 已 发 现 , 用 上 面 的 递归 等 式 来 计算 值 函数 , 实际 上 就 是 一 种 动态 
规划 算法 . 对 于 Vt, 可 设想 递归 一 直 进行 下 去 , 直到 最 初 的 起 点 ; 换言之 , 从 值 
函数 的 初始 值 V7 出 发 , 通过 一 次 迭代 能 计算 出 每 个 状态 的 单 步 奖赏 V7, 进而 
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输入 : MDP 四 元 组 EF = (X, A, P, R); 


被 评估 的 策略 zt; 
累积 奖赏 参数 工 . 
过 程 : 
V(x) Aa RARE. 1: Vee X: V(r) =0; 
2: for t = 1,2,... do 
K (16.7) EATE AA. 3: Vae X : TY (2) = er T(x, a) routes fa (FR 十 =—V(z2')); 
A if t= T +1 then 
5: break 
这 个 写法 是 为 了 便于 在 6: else 
同样 的 算法 框架 下 考虑 工 7 V= V" 
FRR G Fe -y ade H AR g end if 
奖赏 . 9: end for 
输出 : 状态 值 函 数 V 
图 16.7 基于 丁 步 售 积 奖 赏 的 策略 评估 算法 
I BELG BS EE AC, WIE IR EE HP a BR ARE BR TY 16.7 中 算法 这 


循 了 上 述 流 程 , HIF T ae ARR, AIAN T 轮 就 能 精确 地 求 出 值 函 数 . 


对 于 V7, 由 于 yt 在 t 很 大 时 趋 于 0, 因此 也 能 使 用 类 似 的 算法 , 只 需 将 图 
参见 习题 16.2. 16.7 算法 的 第 3 行 根据 式 (16.8) 进 行 替 换 . 此 外 ,由 于 算法 可 能 会 迭代 很 多 次 ， 
因此 需 设 置 一 个 俘 上 上 准则. 常见 的 是 设置 一 个 国 值 0, 奋 在 执行 一 次 友人 代 后 值 函 
数 的 改变 小 于 0 则 算法 停止 ; 相应 的 , 图 16.7 算法 第 4 行 中 的 上 一 下 十 1 需 亚 


换 为 
max V(x) —V"(x2)| < @. (16.9) 
有 了 状态 值 函 数 V, 就 能 直接 计算 出 状态 -动作 值 函数 
Q7 (x, a) = 2 Pe (PRE T T VE_1(2')); 
| whats | (16.10) 
Qa (T, a) 一 > Peat ee F Vy (x’)). 
r'EX 
16.3.2 策略 改进 


对 某 个 策略 的 累积 次 党 进行 评估 后 , 若 发 现 它 并 非 最 优 策略 , 则 当然 希望 
对 其 进行 改进 . 理想 的 策略 应 能 最 大 化 累积 奖 贷 


T” = arg max ` V" (zx). (16.11) 
i cEX 
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ae sialic E 有 多 个 最 优 策 略 , Be OL SRS BOY DA {ERA V* 称 
Va € X : V*(x) = V" (£x). (16.12) 


注意 , 当 策 略 空间 无 约束 时 式 (16.12) 的 V* 才 是 最 优 策略 对 应 的 值 函数 , 例如 对 
离散 状态 空间 和 离散 动作 空间 , 策略 空间 是 所 有 状态 上 所 有 动作 的 组 合 , 共有 
AXI 种 不 同 的 策略 . 若 策略 空间 有 约束 , 则 违背 约束 的 策略 是 “不 合法 ”的 ， 
即便 其 值 函数 所 取得 的 累积 奖赏 值 最 大 , 也 不 能 作为 最 优 值 函数 . 

由 于 最 优 值 函 数 的 累积 奖赏 值 已 达 最 大 , 因此 可 对 前 面 的 Bellman 等 
式 (16.7) 和 (16.8) 做 一 个 改动 , 即将 对 动作 的 求 和 改 为 取 最 优 : 


| VEE) r oe | are (未 Re oo! + A7 Vi (2’)); 


| : (16.13) 
VY (x) = max p Pe (Ra + yV+(x’)). 
换言之 ， 
V(x) = max Q™ (x, a). (16.14) 
代入 式 (16.10) 可 得 最 优 状 态 - 动 作 值 函数 
O(a) = pi eoz (PRE yg + op max Qh (z, a')); 
(16.15) 


Q3 iz. a) = 5 ee, (ae, T ymax Oe. a’)). 
| rex aeaA 


上 述 关 于 最 优 值 函数 的 等 式 , 称 为 最 优 Bellman 等 式 , 其 唯一 解 是 最 优 值 函 数 . 


最 优 Bellman 等 式 揭 示 了 非 最 优 策略 的 改进 方式 : 将 策略 选择 的 动作 改变 
为 当前 最 优 的 动作 . 显然 , 这 样 的 改变 能 使 策略 更 好 . 不 妨 令 动作 改变 后 对 应 的 
策略 为 n, 改变 动作 的 条 件 为 @r(z,m'(z)) > VT"T(z), U y 折扣 累积 奖赏 为 例 ， 
由 式 (16.10) 可 计算 出 递 推 不 等 式 


V” (z) < Q* (ZTCZ)) 


= 2 Pae (Re Se + 1V"(2')) 
rex 

< E PORTO, 4 yQ", (ae) 
TEX 


16.3 有 模型 学 习 


|A(a)| 是 r 状态 下 所 有 
可 选 动作 数 ， 


式 (16.7) 更 新 值 函数 . 


式 (16.10) 计 算 Q tå. 
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= VT (x). (16.16) 


(E PA BT F IR E HI RE CE A E BP dB, BUER SS RS m, 可 
放心 地 将 其 改进 为 


n(x) = arg max Q” (x,a), (16.17) 
acA 


直到 a’ 与 ri PAREI, 此 时 就 满足 了 最 优 Bellman 等 式 , 即 找到 了 
最 优 策 上 略 . 
16.3.3 策略 迭代 与 值 迭 代 

由 前 两 小 节 我 们 知道 了 如 何 评估 一 个 策略 的 值 函 数 , 以 及 在 策略 评估 后 如 
何 改 进 至 获得 最 优 策 略 . 显然 , 将 这 两 者 结合 起 来 即 可 得 到 求解 最 优 解 的 方法 : 
从 一 个 初始 策略 ( 通 闻 是 随机 策略 ) 出 上 友 , 先进 行 策 略 评 估 , 然后 改进 策略 , 评估 
改进 的 策略 , 再 进一步 改进 策略 ，……: 不 断 友 代 进行 策略 评 佑 和 改进 , 耳 到 策略 
收敛 、 不 再 改变 为 止 . 这 样 的 做 法 称 为 “策略 迭代 ”(policy iteration). 

图 16.8 给 出 的 算法 描述 , 就 是 在 基于 荆 步 囚 积 奖 蓉 策略 评估 的 基础 上 , 加 

输入 : MDP 四 元 组 E = (X, A, P, R}; 
累积 奖赏 参数 T. 


1: Vee x: V(x) = 0, (x, a) = Atay 


3: for t = 1,2,... do 


: VEE A: V"(a) = rer n(x, a) Dw'EX Lt (ese T tV (x')); 
5 if t= T + 1 then 

6: break 

了 else 

8: VW 

9: end if 


10: end for 
ll: WaEe X: n(x) = argmaxea Q(z, a); 
12: if Va: 7'(2) = n(x) then 


13: break 
14: else 

15: T= 
16: end if 

17: end loop 
输出 : 最 优 策略 元 


图 16.8 ATT YRRRTHABRRKRAE 
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PE 入 策略 改进 而 形成 的 策略 迭代 算法 .类似 的 ,可 得 到 基于 y 折扣 累积 奖赏 的 策 
略 欠 代 算 法 .策略 欠 代 算法 在 每 次 改进 策略 后 都 需 重新 进行 策略 评估 , 这 通常 
比较 耗 时 . 


由 式 (16.16) 可 知 , 策略 改进 与 值 函数 的 改进 是 一 致 的 , 因此 可 将 策略 改进 
视 为 值 函 数 的 改善 , 即 由 式 (16.13) 可 得 


We = MaxXge A Loex Eon (Rte! + T Vr-ı(2')) i (16.18) 


V,(x) = Taxac4 PE | eee, (R3 ya + V(x’) 
FÆ nn FF BUI (value iteration) 算 法 , 如 图 16.9 所 示 . 


输入 : MDP 四 元 组 E = (X, A, P, R); 
累积 奖赏 参数 械 ; 
Wc MC EO . 
过 程 : 
l: Yre X: V(r)=0; 
2: for t = 1,2,... do 
vr EAX: V'(x) = MáxXxaeA tex Pe aa (Giese aie tV (x')); 
4 if maxzex |V (x) — V' (x)| < 0 then 
5 break 
6: else 
7 V= V" 
8: end if 
9: end for 


(16.10) i+ # Q 48. 输出 : 策略 w(x) = argmaxoc4 Q(z, a) 


A (16.18) EHE AŽ. 


16.9 T T RPAH NLRI 


ARH y HARRE, 只 需 将 图 16.9 算法 中 第 3 行 奉 换 为 


Va EX: V" (xr) = max > 5 Phe (Rese + V(2')). (16.19) 
nex 


从 上 面 的 算法 可 看 出 , 在 模型 已 知 时 强化 学 习 任 务 能 归结 为 基于 动态 规划 
的 寻 优 问题 . 与 监督 学 习 不 同 , 这 里 并 未 涉及 到 泛 化 能 力 , 而 是 为 每 一 个 状态 找 
到 最 好 的 动作 . 
16.4 RIRES 

在 现实 的 强化 学 习 任 务 中 , 环境 的 转移 概率 、 奖 赏 函数 往往 很 难得 知 , EL 


16.4 Reyes) 


亦 称 “无 模型 学 习 ”， 


蒙特 卡 罗 方 法 参见 14.7 
$, 14.5.1 7 Pet eA 
可 去 链 蒙 特 卡 罗 方 法 . 
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至 很 难 知 道 环 境 中 一 共有 多 少 状 态 . 若 学 习 算 法 不 依赖 于 环境 建 模 , 则 称 为 
“ fa Pi FY 2 SJ” (model-free learning), 这 比 有 模型 学 习 要 困难 得 多 . 


16.4.1 蒙特 卡 罗 强 化 学 习 

在 人 免 模 型 情形 下 , 策略 迭代 算法 首先 过 到 的 问题 是 策略 无 法 评估 , 这 是 由 
于 模型 未 知 而 导致 无 法 做 全 概率 展开 . 此 时 , 只 能 通过 在 环境 中 执行 选择 的 动 
VE, 来 观察 转移 的 状态 和 得 到 的 奖赏 . 受 OK 播 辟 赌博 机 的 启发 , 一 种 直接 的 策 
HS DE AG ARTE FEB IR “RPE” , 然后 求 取 平均 累积 奖 贫 来 作为 期 望 累 积 奖 贷 
的 近似 , 这 称 为 里 特 卡 罗 强 化 竺 习 . 由 于 采样 必须 为 有 限 次 数 , 因此 该 方法 更 适 
合 于 使 用 工 步 累积 奖 苇 的 强化 学 习 任 务 . 

为 一 方面 , REM ITA IE rh th AR ASE, 而 最 终 的 宽 略 是 通过 状 
态 -动作 值 函 数 @ 来 获得 . 当 模 型 已 知 时 , AV E Q 有 很 简单 的 转换 方法 , 而 
当 模 型 未 知 时 , 这 也 会 出 现 困 难 . 于 是 , 我 们 将 估计 对 象 从 Y 转变 为 Q, 即 估计 
每 一 对 “状态 -动作 ”的 值 函数 . 

此 外 , 在 模型 未 知 的 情形 下 , 机 器 只 能 是 从 一 个 起 始 状 态 ( 或 起 始 状 态 集 
合 ) 开 始 探索 环境 , 而 策略 迭代 算法 由 于 需 对 每 个 状态 分 别 进行 估计 , 因此 在 这 
种 情形 下 无 法 实现 . 例如 探索 种 瓜 的 过 程 只 能 从 播 下 种 子 开 始 , 而 不 能 任意 选 
择 种 植 过 程 中 的 一 个 状态 开始 . 因此 , 我 们 只 能 在 探索 的 过 程 中 逐渐 发 现 各 个 
状态 并 估计 各 状态 -动作 对 的 值 饵 数 . 

综合 起 来 , 在 模型 未 知 的 情形 下 , 我 们 从 起 始 状态 出 发 , 使 用 某 种 策略 进行 
采样 , 执行 该 策略 代步 并 获得 轨迹 


< %0,40,T1,%1,41,72,.-.-,27T-1,47T-1,7TT;, TT =>; 


然后 , 对 轨迹 中 出 现 的 每 一 对 状态 -动作 , 记录 其 后 的 奖赏 之 和 , 作为 该 状态 - 动 
作对 的 一 次 累积 奖 时 采样 值 . 多 次 采样 得 到 多 条 轨迹 后 , 将 每 个 状态 - 动作 对 的 
累积 奖赏 采样 值 进行 平均 , 即 得 到 状态 -动作 值 函 数 的 估计 . 

可 以 看 出 , AK BCE SR SE ER BC oh, 就 需要 多 条 不 同 的 采样 轨迹 . 然 
而 , 我 们 的 策略 有 可 能 是 确定 性 的 , 即 对 于 茶 个 状态 只 会 输出 一 个 动作 , er HEA 
这 样 的 策略 进行 采样 , 则 只 能 得 到 多 条 相同 的 轨迹 . 这 与 K 揪 辟 赌博 机 的 “ 仪 
利用 ”法 面临 相同 的 问题 , 因此 可 借鉴 探索 与 利用 折 中 的 办 法 , 例如 使 用 e 
心 法 , 以 @ 的 概率 从 所 有 动作 中 均匀 随机 选取 一 个 , 以 1 一 e 的 概率 选取 当前 最 
优 动 作 . 我 们 将 确定 性 的 策略 r 称 为 “原始 策略 ”, 在 原始 策略 上 使 用 ec- 贪心 
法 的 策略 记 为 
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RERA — RMSE, 


默认 均匀 概率 选取 动作 . 


采样 第 s 条 轨迹 . 


对 每 一 个 状态 -动作 对 . 


计算 轨迹 中 的 累积 奖赏 ， 


式 (16.2) 更 新 平均 奖 筑 . 


根据 值 函 数 得 到 策略 ， 
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b 5 |] _ -=。 

(2) = m(x), APB 1 一 6; (16.20) 
4 中 以 均匀 概率 选取 的 动作 ， 以 概率 e. 


对 于 最 大 化 值 图 数 的 原始 策略 T = arg max, Q(z, a), 其 ce 贪心 策略 re P, 当前 
最 优 动作 被 选中 的 概率 是 1 一 e+ py, 而 每 个 非 最 优 动作 被 选中 的 概率 是 侣 
于 是 , 每 个 动作 都 有 可 能 补 选 取 , 而 多 次 采样 将 会 产生 不 同 的 采样 轨迹 . 

与 策略 迭代 算法 类 似 , 使 用 蒙特 卡 罗 方 法 进行 策略 评估 后 , 同样 要 对 策 
mS BEAT HE. 前面 在 讨论 策略 改进 时 利用 了 式 (16.16) 揭 示 的 单调 性 , 通过 换 
入 当前 最 优 动作 来 改进 策略 . 对 于 任意 原始 策略 r, 其 e- 贪 心 策略 仅 是 将 
e 的 概率 均匀 分 配给 所 有 动作 , 因此 对 于 最 大 化 值 函数 的 原始 策略 m, 同样 有 
Q(x, n'(x)) > V(x), 于 是 式 (16.16) 仍 成 立 , 即 可 以 使 用 同样 方法 来 进行 策略 
改进 . 

图 16.10 给 出 了 上 述 过 程 的 算法 描述 , 这 里 被 评估 与 被 改进 的 是 同一 个 策 
We, AERA “ERI” (on-policy) 聚 特 卡 罗 强 化 学 习 算 法 . 复 法 中 奖 贰 均值 
采用 增 量 式 计 算 , 每 采样 出 一 条 轨迹 , 就 根据 该 轨迹 涉及 的 所 有 “状态 -动作 ” 
对 来 对 值 函 数 进行 更 新 . 


输入 : 环境 E; 
动作 空间 A; 
起 始 状态 Zo; 
策略 执行 步 数 了 . 
过 程 : 
1: Q(z,a) = 0, -o a) = 0, m(x, a) = 
2: for s = 1,2,... 
3: 在 忆 中 执行 策略 产生 轨迹 


AG J? 


< To, Q0, T1, T1,01,;T2;,---, TT—1;0T—1;TT; TT >; 
A: OR .. ,TT— 1 do 
T 
3: R = Ta p 2vi=t41 Ti 
， — Qira) xcount(rs ar) TR, 
6: 全 (Zi at) = = Sees + ; 
T: count (zr, at) 一 COUDt( +， ar) +1 
8: end for 
9: “对 所 有 已 见 状 态 t: 
m arg max,, Q(z,a'), 以 概率 1 一 e; 
以 均匀 概率 从 4 中 选取 动作 ， 以 概率 €. 
10: end for 
输出 : 策略 7 


16.10 同 策略 蒙特 卡 罗 强 化 学 习 算 法 


16.4 Reyes) 


这 样 基于 一 个 分 布 的 
采样 来 估计 另 一 个 分 布 


下 的 期 望 , 称 为 重要 性 用 


样 (importance sampling). 
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同 策略 蒙特 卡 罗 强 化 学 习 算 法 最 终 产 生 的 是 eR. 然而 , 引入 eA 
心 是 为 了 便于 策略 评估 , 而 不 是 为 了 最 终 使 用 ; 实际 上 我 们 希望 改进 的 是 原 
始 ( 非 ce 贪心) 策略 . ABA, 能 否 仅 在 策略 评估 时 引入 edib, 而 在 策略 改进 时 却 
改进 原始 策略 呢 ? 

这 其 实 是 可 行 的 . 不 妨 用 两 个 不 同 的 策略 oe A oe” 来 产生 采样 轨迹 , 两 者 的 
区 别 在 于 每 个 “状态 -动作 对 ”被 采样 的 概率 不 同 . 一 般 的 , 函数 f 在 概率 分 布 
p 下 的 期 望 可 表达 为 


E[f] = | P(x) f(x)dz ， (16.21) 
可 通过 从 概率 分 布 p 上 的 采样 {z1, x2,... ,zm} 来 估计 了 的 期 望 , 即 
1 TTL 
一 mm Daw I) . (16.22) 
行 引 入 男 一 个 分 布 9, 则 函数 f 在 概率 分 布 p 下 的 期 望 也 可 等 价 地 与 为 
p(x) | 
EL = f ao PE ade . (16.23) 


上 式 可 看 作 PS f(x) 在 分 布下 的 期 望 , 因此 通过 在 g 上 的 采样 {24， 
To,...,0,,} 可 估计 为 


ÊI] = + E PER te) . (16.24) 


回 到 我 们 的 问题 上 来 ， 使 用 策略 T 的 采样 轨迹 来 评估 策略 m, 实际 上 如 是 
对 累积 奖赏 估计 期 望 


Qina) = LIR l (16.25) 


i=1 
其 中 R; 表示 第 i 条 轨迹 上 自 状 态 r 至 结束 的 累积 奖赏 . 者 改 用 策略 r 的 采样 
轨迹 来 评估 策略 m, 则 仅 需 对 累积 奖赏 加 权 , 即 
Q(x,a) = l 元 > = R; ， (16.26) 


其 中 Pr 和 Pr 分别 表 示 两 个 策略 产生 第 i 条 轨迹 的 概率 . 对 于 给 定 的 一 条 轨 
WE (£0, Qa0;71; .XT_1;QT-_1;7?T) £7), 策略 ”产生 该 轨迹 的 概率 为 


-JI n (Ti, ai)P, cn 一 i+1 ` (16.27) 
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上 默认 均匀 概率 选取 动作 . 


采样 第 s 条 轨迹 . 


Wp ee 的 FAT. 
FHK TEEF 
re 1. 


式 (16.2) 更 新 平均 奖赏 . 


FRAG (HB Hk FF S| R A. 
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虽然 这 里 用 到 了 环境 的 转移 概率 PO, ,但 式 (16.24) 中 实际 只 需 两 个 策略 概 
率 的 比值 
imi, TLL Ai) 


一 -一 = 一 一 -一 一 一 一 , 16.2 
pr A aeai) en 


Trn 为 确定 性 策略 而 是 7 的 e- 贪 心 策略 , 则 a(r ai) 对 于 ai = a(r) 始终 为 
1, m (xi ai) N g Elet i TERRE RE n 进行 评估 了 . 图 16.11 给 出 
T “RMR” (off-policy) REF R2 AEF A BE FA. 


输入 : 环境 E; 
动作 空间 A; 
起 始 状 态 zo; 
策略 执行 步 数 工 . 
1: Q(z,a) = 0, count(x, a) 一 0, n(x, a) = L . 
2: for s = 1,2,... do æ) 
3: Æ E PÁT m HJ el rA ERLE 


< To, Q0; T1; T1; Q1; T2,- --; TT—1; QT 1 TT, TT >; 
A: pi = 1 —e+e/|Al, ay = w(x); 
| 人 | 过 | ai Æ Tn(Ti), 
5: for t = 0,1,..., T — 1 do 
ai=nr{xi))., 
6: R= 7 (zz t 十 1 ri) Ik- 4+1 — 
, —_— Qix ar) countfzty a)+ ER. 
T: Q lTi te) = onnaa 
8: count(zty at) = count (£e, at) + 1 
9: end for 
10: m(x) = argmax,, Q(z,a‘) 
11: end for 
输出 : 策略 a 


图 16.11 异 策略 蒙特 卡 罗 强 化 学 习 算 法 


16.4.2 时 序 差分 学 习 

蒙特 卡 罗 强 化 学 习 算 法 通过 考虑 采样 轨迹 , 克服 了 模型 未 知 给 策略 估计 造 
成 的 困难 . 此 类 算法 需 在 完成 一 个 采样 轨迹 后 再 更 新 策略 的 值 估计 , 而 前 面 介 
绍 的 基于 动态 规划 的 策略 迭代 和 值 进 代 算 法 在 每 执行 一 步 策 略 后 就 进行 值 函 
数 更 新 . 两 者 相 比 , 蒙特 卡 罗 强 化 学 习 算 法 的 效率 低 得 多 , 这 里 的 主要 问题 是 
蒙特 卡 罗 强 化 学 习 算 法 没有 充分 利用 强化 学 习 任 务 的 MDP 结构 . 时 序 差 分 
(Temporal Difference, 简称 TD) 学 习 则 结合 了 动态 规划 与 蒙特 卡 罗 方 法 的 思 
想 , 能 做 到 更 高 效 的 免 模 型 学 习 . 


16.4 Reyes) 


将 这 几 个 英文 单词 的 首 
字母 连 起 来 . 


387 


蒙特 卡 罗 强 化 学 习 算 法 的 本 质 , 是 通过 多 次 尝试 后 求 平均 来 作为 期 望 累 
BAAR ES AE, 但 它 在 求 平均 时 是 “ 批 处 理 式 ”进行 的 , 即 在 一 个 完整 的 采 
样 轨 迹 完 成 后 再 对 所 有 的 状态 -动作 对 进行 更 新 . 实际 上 这 个 更 新 过 程 能 
量 式 进行 . 对 于 状态 -动作 对 (2,0), 不 妨 假 定 基 于 上 上 个 采样 已 估计 出 值 函 数 
QT (x,a) = +> i, 则 在 得 到 第 上 十 1 个 采样 re 时 , 类 似 式 (16.3), 有 


Q71 (2,a) = QF (a, a) + (rest — QF (z, 2). (16.29) 
显然 , Ame QF (a, a) WE (rei 一 QT (az, a)) 即 可 . 更 一 般 的 , 将 在 
IRA ARB omi, 则 可 将 增 量 项 写作 arerl — OT (a, a)). FERRE Pi S 
ar 为 一 个 较 小 的 正 数 值 a, AF OT (x, a) BRITA RY ARR ZA, 则 可 看 出 
系数 之 和 为 1, WS ar = a 不 会 影响 @ 是 累积 奖赏 之 和 这 一 性 质 . 更 新 步 长 a 
越 大 , 则 越 靠 后 的 累积 奖赏 越 重 要 . 


以 > 折扣 累积 奖赏 为 例 , 利用 动态 规划 方法 且 考 虑 到 模型 未 知 时 使 用 状 
态 -动作 值 函 数 更 方便 , 由 式 (16.10) 有 


Q(z,0) = >》 Pw (RE yw + WV" (2’)) 
2 合生 
一 ` Pe (Risu tY >, wie oO a) (16.30) 
vex a'EA 
通过 增 量 求 和 可 得 
Q(T, a) = QF (x, a) + a (Riz + VOT (2’, 0’) — QF (x, a)), (16.31) 


其 中 a! 是 前 一 次 在 状态 r 执行 动作 a 后 转移 到 的 状态 , a ERI a Æ r 上 选 
择 的 动作 . 

使 用 式 (16.31), 每 执行 一 步 策略 就 更 新 一 次 值 函 数 估 计 , 于 是 得 到 疼 16.12 
的 算法 . 该 算法 由 于 每 次 更 新 值 函 数 需 知道 前 一 步 的 状态 (state)、 前 一 步 的 动 
作 (action)、 奖 赏 值 (reward)、 当 前 状态 (state)、 将 要 执行 的 动作 (action)， 由 
此 得 名 为 Sarsa 算法 [Rummery and Niranjan, 1994]. 显然 , Sarsa 是 一 个 同 策 
上 略 算 法 , 算法 中 评估 (第 6 行 )、 执 行 (第 5 行 ) 的 均 为 e- 贪 心 策 略 . 

将 Sarsa 修改 为 卉 宋 上 暗算 法 , 则 得 到 图 16.13 RA Q- 3 (Q-learning) 
法 [Watkins and Dayan, 1992], 该 算法 评估 (第 6 行 ) 的 是 原始 策略 , 而 执行 (第 
4 行 ) 的 是 HUD SHE. 
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默认 均匀 概率 选取 动作 . 


单 步 执行 策略 . 


原始 策略 的 e- 贪 心 策 略 . 


A (16.31) ÒE H, 


默认 均匀 概 牵 选取 动作 ， 


单 步 执行 策略 ， 
原始 策略 . 
K (16.31) EA HK, 


第 16 章 强化 学 习 


输入 : 环境 E; 
动作 空间 A; 
起 如 状态 to; 
奖赏 折扣 y; 
更 新 步 长 a. 

过 程 : 


1: ()(x, a) = 0, m(x, a) = A 


2 2 = aa, eee 

3: for t = 1,2,. 

rx = =a E RATZI a 产生 的 奖赏 与 转移 的 状态 ; 
a’ = n(x’); 

Q(z, a) = Qla, a) + alr #700 a) = Qla, a) 
n(x) = arg max, 1 Q(z,a” 

8: f= =f 

9: end for 


输出 : 策略 区 


2 ee es 


16.12 Sarsa 算法 


输入 : 环境 E; 
动作 空间 A; 
起 始 状 态 ZO; 
奖赏 折扣 Y; 
更 新 步 长 a. 
过 程 : 
1: Q(x,a) = 0, wir, 2) = AGI 
2: TIT 二 £p; 
3: for t = 1,2,... do 
4: r, x£! = E E PATSJE a = n(x) 产生 的 奖 贰 与 转移 的 状态 ; 


5: a’ 一 T(z/); 
6: Q(z, a) = QAz,a) +a(r + yQ(2', a’) — Q(z, a)); 
7: n(a) = argmaxyr Q(t, 0"), 
8: mrm=g" 
9: end for 

输出 : 策略 7 


图 16.13 Q- 学 习 算 法 


16.5 值 函数 近似 


前 面 我 们 一 直 假 定 强 化 学 习 任 务 是 在 有 限 状态 空间 上 进行 , 每 个 状态 可 
用 一 个 编号 来 指 代 ; 值 函 数 则 是 关于 有 限 状 态 的 “表格 值 函 数 ”(tabular value 
function), 即 值 函数 能 表示 为 一 个 数组 , 输入 i 对 应 的 函数 值 就 是 数组 元 际 i 的 
值 , 且 更 改 一 个 状态 上 的 值 不 会 影响 其 他 状态 上 的 值 . 然而 , 现实 强化 学 习 任 务 


16.5 ATI 
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所 面临 的 状态 空间 往往 是 连续 的 , 有 无 穷 多 个 状态 . 这 该 怎么 办 呢 ? 

一 个 直接 的 想法 是 对 状态 空间 进行 离散 化 , 将 连续 状态 空间 转化 为 有 限 离 
BORSE, 然后 就 能 使 用 前 面 介绍 的 方法 求解 . SEER AE, 如 何 有 效 地 对 状态 
空间 进行 离散 化 是 一 个 难题 , 尤其 是 在 对 状态 空间 进行 探索 之 前 . 

实际 上 , 我 们 不 妨 直 接 对 连续 状态 空间 的 值 函 数 进行 学 习 . 假定 状态 空间 
为 n 维 实 数 空 间 X = IR”, 此 时 显然 无 法 用 表格 值 函 数 来 记录 状态 值 . 96S FE 
单 情形 , 即 值 冰 数 能 表达 为 状态 的 线性 函数 [Busoniu et al., 2010] 


Volx) = O'a , (16.32) 


其 中 zw 为 状态 同 量 , 9 为 参数 癌 量 . 由 于 此 时 的 值 函 数 难 以 像 有 限 状 态 那 
样 精确 记录 每 个 状态 的 值 , 因此 这 样 值 函数 的 求解 科 称 为 信函 数 近 似 (value 


function approximation). 


我 们 希望 通过 式 (16.32) 学 得 的 值 函 数 尽 可 能 近似 真实 值 函 数 VT, 近似 程 
度 常 用 最 小 二 乘 误差 来 度量 : 


Eo = Ey |(v" (æ) — Vo (x) ) (16.33) 


其 中 Emr 表示 由 策略 TT 所 采样 而 得 的 状态 上 的 期 望 . 
为 了 使 误差 最 小 化 , 采用 梯度 下 降 法 , 对 误差 求 负 导数 


ð OV 
-Re L Bonn [2(V"(@) - vola) 2) 
一 下 cr |2(V"(x) — Vo(x)) x] , (16.34) 
于 是 可 得 到 对 于 单个 样本 的 更 新 规则 
0 = 0 +a(V7 (x) — Ve(z)) x. (16.35) 


我 们 并 不 知道 策略 的 真实 值 函 数 Yr, 但 可 借助 时 序 差 分 学 习 , 基于 
Vr(z) =r + yV" (x) 用 当前 估计 的 值 函数 代替 真实 值 函 数 , 即 


06=0+a(r + 7Vo(ax’) — Vo(x)) x 


=@+a(r4+70'a' —O'x) a , (16.36) 
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其 中 oe! 是 下 一 时 刻 的 状态 . 

需 注意 的 是 , 在 时 序 差分 学 习 中 需要 状态 -动作 值 函 数 以 便 获取 策略 . 这 里 
一 种 简单 的 做 法 是 令 9 作用 于 表示 状态 和 动作 的 联合 向 量 上 , 例如 给 状态 向 量 
增加 一 维 用 于 存放 动作 编号 , 即将 式 (16.32) 中 的 x 替换 为 (zi a); 另 一 种 做 法 是 
用 0/1 对 动作 选择 进行 编码 得 到 向 量 @a = (0;...;1;...;0), 其 中 “1” 表 示 该 动 
作 被 选择 , 再 将 状态 向 量 与 其 合并 得 到 (w; a), 用 于 替换 式 (16.32) 中 的 z. 这 样 
就 使 得 线性 近似 的 对 象 为 状态 -动作 值 函数 . 

基于 线性 值 函 数 近似 来 蔡 代 Sarsa 算法 中 的 值 函数 , 即 可 得 到 图 16.14 的 
线性 值 函数 近似 Sarsa 算法 . 类 似 地 可 得 到 线性 值 函数 近似 Q- 学 习 算 法 . 显然 
可 以 容易 地 用 其 他 学 习 方 法 来 代替 式 (16.32) 中 的 线性 学 习 器 , 例如 通过 引入 核 

法 6 方法 实现 非 线性 值 函数 近似 


输入 : 环境 E; 
动作 空间 A; 
起 始 状 态 LO; 
ae Re ATF y; 
更 新 步 长 a. 
过 程 : 
1: 0 = 0; 
2: £ = £o, a = a(x) = arg max,» O° (x; a"); 
3: for t = 1,2,... do 
rx 一 在 五 中 执行 动作 wa 产生 的 奖赏 与 转移 的 状态 ; 
a’ = 1*(a' ); 
0 = 0 + a(r + y0T(x';a') — OT (x; a))(x; a); 
a(x) = arg max,» 01 (x; a"); 
g =g, =d 
9: end for 
输出 : E a 


原始 策略 的 e- 贪 ' 心 策略 . 
式 (16.36) 更 新 参数 . 


Tl 


16.14 2 HHE BAIR WwW Sarsa 算法 


16.6 模仿 学 习 
亦 称 “学 徒 学 习 ” 
e 在 强化 学 习 的 经 典 任务 设置 中 , 机 器 所 能 获得 的 反馈 信息 仅 有 多 步 决策 后 
from demonstration), “3L ”的 累积 奖赏 , 但 在 现实 任务 中 , 往往 能 得 到 人 类 专家 的 决策 过 程 范例 , 例如 在 种 
wii 与 和 中 瓜 任务 上 能 得 到 农业 专家 的 种 植 过 程 范例 . 从 这 样 的 范例 中 学 习 , 称 为 “模仿 


期 的 “ 示 教 学 习 ” 有 直接 ”学 习 ” (imitation learning). 
联系 ,参见 1.5 节 . | 


16.6 ”模仿 学 习 
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16.6.1 直接 模仿 学 习 

强化 学 习 任 务 中 多 步 决 策 的 搜索 空间 巨大 , 基于 累积 奖赏 来 学 习 很 和 多 步 之 
前 的 合适 决策 非常 困难 , 而 直接 模仿 人 类 专家 的 “状态 - 动作 对 ”可 显著 缓解 
这 一 困难 , 我 们 称 其 为 “直接 模仿 学 习 ”. 

假定 我 们 获得 了 一 批 人 类 专家 的 决策 轨迹 数据 {Tn, 72,... ,Tm}, 每 条 轨迹 
包含 状态 和 动作 序列 


— fet „ô? ot t a 
Ti = ($1, @1, $2, 02, Ba ) Sns+1)? 


其 中 ni 为 第 :条 轨迹 中 的 转移 次 数 . 
有 了 这 样 的 数据 , 就 相当 于 告诉 机 器 在 什么 状态 下 应 选择 什么 动作 , 于 是 
可 利用 监督 学 习 来 学 得 符合 人 类 专家 决策 轨迹 数据 的 策略 . 
我 们 可 将 所 有 轨迹 上 的 所 有 “状态 -动作 对 ”抽取 出 来 , 构造 出 一 个 新 的 数 
据 集 合 
D = 1{(s1,01),(s2,02),..., (sym niasm nm) ， 


即 把 状态 作为 特征 , 动作 作为 标记 ; 然后 , 对 这 个 新 构造 出 的 数据 集合 D 使 用 
分 类 (对 于 离散 动作 ) 或 回归 (对 于 连续 动作 ) 算 法 即 可 学 得 策略 模型 . 学 得 的 这 
个 策略 模型 可 作为 机 器 进行 强化 学 习 的 初始 策略 , 再 通过 强化 学 习 方 法 基于 环 
境 反 馈 进 行 改 进 , 从 而 获得 更 好 的 策 上 略 . 
16.6.2 逆 强 化 学 习 

在 很 多 任务 中 , 设计 奖赏 函数 往往 相当 困难 , 从 人 类 专家 提供 的 范例 数据 
中 反 推 出 奖 蓉 函数 有 助 于 解决 该 问题 , 这 就 是 逆 强 化 学 习 (inverse reinforce- 
ment learning) |Abbeel and Ng, 2004|. 

在 逆 强 化 学 习 中 , 我 们 知道 状态 空间 X, JEEE A, 并 且 与 直接 模仿 学 
习 类 似 , 有 一 个 决策 轨迹 数据 集 {71,70,...,7m). 闭 强 化 学 习 的 基本 思想 是 : AK 
使 机 器 做 出 与 范例 一 致 的 行为 , 等 价 于 在 茶 个 奖赏 函数 的 环境 中 求解 最 优 策略 ， 
该 最 优 策略 所 产生 的 轨迹 与 范例 数据 一 致 . 换言之 , 我 们 要 寻找 某 种 奖赏 函数 
使 得 范例 数据 是 最 优 的 , 然后 即 可 使 用 这 个 奖赏 函数 来 训练 强化 学 习 策 略 . 

不 妨 假 设 奖 赏 函数 能 表达 为 状态 特征 的 线性 函数 , 即 R(x) = wha. 于 是 ， 
策略 ar EN) BRASS Bx AY Fy A 


+00 | 十 ee 
pP" =E bs R(x) | "| = E > yw ay | d 
t=0 | t=0 
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十 ce | 
= w! E b> yt | "| (16.37) 


t=0 
BETAS TA] ee DASA A Sg RA EN AR. 


RAS I BEBE EJES yte | 7] 简写 为 zr. 注意 到 获得 2" 需求 取 期 
A. 我 们 可 使 用 蒙特 卡 罗 方 法 通过 采样 来 近似 期 望 , 而 范例 轨迹 数据 集 恰 可 看 
作 最 优 策略 的 一 个 采样 , 于 是 , 可 将 每 条 范例 轨迹 上 的 状态 加 权 求 和 再 平均 , 记 
为 et. 对 于 最 优 奖 赏 函 数 RE) = ws*Tze 和 任意 其 他 策略 产生 的 aT, 有 


Ww e* — w* Ta" = (#* 一 元 r) >0. (16.38) 


车 能 对 所 有 和 宽 略 计算 出 (FE* 一 g7), BY aA H 


w* 一 argmax minw’ (元 * 一 元 7 (16.39) 
ai Tv 


s.t. lwll <1 


显然 , 我 们 难以 获得 所 有 策略 , 一 个 较 好 的 办 法 是 从 随机 策略 开始 , ARH 
求解 更 好 的 奖赏 函数 , 基于 奖赏 浮 数 获得 更 好 的 策略 , 直 全 最 终 获 得 最 符合 苑 
例 轨迹 数据 集 的 奖赏 函数 和 策略 , 如 图 16.15 算法 所 示 . 注意 在 求解 更 好 的 奖 
PRAT, 需 将 式 (16.39) 中 对 所 有 策略 求 最 小 改 为 对 之 前 学 得 的 策略 求 最 小 . 


输入 : 环境 E; 
状态 空间 X: 
动作 宇 间 A; 
范例 轨迹 数据 集 D = {71,72,.--,;Tm}- 
过 程 : 
1: &* = 从 范例 轨迹 中 算出 状态 加 权 和 的 均值 问 量 ; 
A: g = 随机 策略 ; 
3: for 4 = 1,2,... do 
4: =i T 的 采样 轨迹 算出 状态 加 权 和 的 均值 癌 量 ; 
5: he w* = arg max, min’_, w!(#* — #7) st. lwl <1 
6: 7 二 在 环境 (X, A, R(x) = w* zy 中 求解 最 优 策 略 ; 
T 
输 


: end for 


Hi: 奖赏 函数 R(x) 一 xz 与 策略 7 


图 16.15 选 代 式 逆 强 化 学 习 算 法 


16.7 阅读 材料 


“后 悔 ”(regret) 是 指 在 
不 确定 性 条 件 下 的 决策 与 
确定 性 条 件 下 的 决策 所 获 
得 的 奖赏 间 的 差别 ， 


Samuel 跳棋 工作 和 参见 
p.22. 


393 


16.7 阅读 材料 


强化 笠 习 专门 书籍 中 最 闭 名 的 是 [Sutton and Barto, 1998]. [Gosavi, 2003] 
从 优化 的 角度 来 讨论 强化 学 习 , [Whiteson, 2010] 则 侧重 于 介绍 基于 演化 算法 
搜索 的 强化 学 习 方 法 . [Mausam and Kolobov, 2012] MB Ra R ARFER 
角 介 绍 强 化 学 习 , [Sigaud and Buffet, 2010] 覆盖 了 很 多 内 容 , 包括 本 章 未 介绍 
的 部 分 可 观察 马尔 可 夫 决 策 过 程 (Partially Observable MDP, 简称 POMDP)、 
策略 梯度 法 等 . 基于 值 函 数 近似 的 强化 学 习 可 参阅 [Busoniu et al., 2010]. 

欧洲 强化 学 习 研 讨 会 (EWRL) 是 专门 性 的 强化 学 习 系 列 研讨 会 , 多 学 科 强 
化 学 习 与 决策 会 议 (RLDM) 则 是 从 2013 年 开始 的 新 会 议 . 

[Kaelbling et al., 1996] 是 一 个 较 早 的 强化 学 习 综 述 , [Kober et al., 2013; 
Deisenroth et al., 2013] 则 综述 了 强化 学 习 在 机 右 人 领域 的 应 用 . 

[vermorel and Mohri, 2005] 介绍 了 多 种 K- 摇 辟 赌 博 机 算法 并 进行 了 比较 . 
多 摇 臂 赌博 机 模型 在 统计 学 领域 有 大 量 研 究 [Berry and Fristedt, 1985], 近年 来 
在 “在 线 学 习 ”(online learning)、“ 对 抗 演习 ”(adversarial learning) 等 方面 
有 广泛 应 用 , [Bubeck and Cesa-Bianchi, 2012] 对 其 “ 悔 界 ”(regret bound)4} 
析 方 面 的 结果 进行 了 综述 . 

时 序 差 分 (TD) 学 习 最 早 是 A. Samuel 在 他 著名 的 跳棋 工作 中 提出 ， 
[Sutton, 1988] 提出 了 TD( 和 ) Hv, 由 于 [Tesauro, 1995] 基于 TD(A) 研制 的 
TD-Gammon 程序 在 西洋 双 陆 棋 上 达到 人 类 世界 冠军 水 平 而 使 TD 学 习 备 受 
FE. Q@- 学 习 算 法 是 [Watkins and Dayan, 1992] 提出 , Sarsa 则 是 在 Q- 学 习 算 
法 基础 上 的 改进 [Rummery and Niranjan, 1994|. TD 学 习 近 年 来 仍 有 改进 和 
推广 , 例如 广义 ID 学习 [Ueno et al., 2011]、 使 用 资格 迹 (eligibility traces) MJ 
TD 学 习 [Geist and Scherrer, 2014] 等 . [Dann et al., 2014] 对 TD 学习 中 的 寅 上 略 
评估 方法 进行 了 比较 . 

模仿 学 习 被 认为 是 强化 学 习 提 速 的 重要 手段 [Lin, 1992; Price and Boutili- 
er, 2003], 在 机 器 人 领域 被 广泛 使 用 [Argall et al., 2009]. [Abbeel and Ng, 2004; 
Langford and Zadrozny, 2005] 提出 了 逆 强 化 学 习 方 法 . 

在 运筹 学 与 控制 论 领 域 , 强化 学 习 方 面 的 研究 被 称 为 “近似 动态 规 
划 ”(approximate dynamic programming), 可 参阅 [Bertsekas, 2012]. 
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用 于 KK- 摇 辟 赌博 机 的 UCB (Upper Confidence Bound, 上 置信 和 界 ) 方 
法 每 次 选择 Q(k) + UC(k) 最 大 的 摇 辟 , 其 中 Q(k) AH k 当前 的 平 
均 奖 赏 , UC(k) 为 置信 区 间 . 例如 


| 2lnn 
Q(k) +f, 


EP n AOA ATA E'S RE, nx 为 已 执行 揪 臂 大 的 次 数 . 试 比 
较 UCB 方法 与 e- 贪 心 法 和 Softmax 方法 的 异同 . 


音 鉴 图 16.7, 试 写 出 基于 y 折扣 奖 帝 函数 的 策略 评估 算法 . 


借鉴 图 16.8, 试 写 出 基于 y PIA be BH BIN TIA CE. 


在 没有 MDP 模型 时 , 可 以 先 学 习 MDP 模型 (例如 使 用 随机 策略 进行 
KIE, 从 样本 中 估计 出 转移 函数 和 奖赏 函数 ), 然后 再 使 用 有 模型 强化 
学 习 方法 . 试 述 该 方法 与 免 模 型 强化 学 习 方 法 的 优 缺 点 . 


试 推导 出 Sarsa 算法 的 更 新 公式 (16.31). 
试 借鉴 图 16.14 给 出 线性 值 函 数 近 似 Q- 学 习 算 法 . 


线性 值 函 数 近 似 在 实 工 中 往往 有 较 大 误差 . 试 结 合 BP 神经 网 络 , 将 
k EE R AUTAA Sarsa 算法 推广 为 使 用 神经 网 络 近 似 的 Sarsa 算法 . 


试 结 合 核 方法 , 将 线性 值 函 数 近 似 Sarsa 算法 推广 为 使 用 核 函 数 的 非 
2% EME RR AUTAA Sarsa 算法 . 
对 于 目标 驱动 (goal-directed) 的 强化 学 习 任 务 , 目标 是 到 达 某 一 状态 ， 


例如 将 汽车 区 驶 到 预定 位 置 . 试 为 这 样 的 任务 设置 奖赏 函数 , 并 讨论 
不 同 奖 贰 函数 的 作用 (例如 每 一 步 未 达 目 标的 奖 贰 为 0、 一 1 或 1). 


与 传统 监督 学 习 不 同 , 直接 模仿 学 习 在 不 同时 刻 所 面临 的 数据 分 布 可 
能 不 同 . 试 设计 一 个 考虑 不 同时 刻 数据 分 布 变 化 的 模仿 学 习 算法 . 
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休息 一 会 儿 


切 比 雪夫 在 圣彼得堡 大 
学 培养 出 马尔 可 夫 、 李 亚 
普 诺 夫 、 柯 尔 金 、 格 拉 维 
等 著名 数学 家 , 还 影响 了 
EGR AF AEK FAS AIRS 
数学 家 . 圣彼得堡 学 派 标 
志 着 俄罗斯 数学 走 到 了 世 
界 前 沿 . 
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小 故事 : 马尔 可 夫 决 策 过 程 与 安 德 烈 。 马 尔 可 夫 

安 德 烈 。 安 德 烈 维 奇 。 马 尔 可 夫 (Andrey Andreyevich 
Markov，1856 一 1922) 是 著名 俄罗斯 数学 家 、 圣 彼得 堡 数学 
学 派 代表 性 人 物 , 在 概率 论 、 数 论 、 函 数 逼 近 论 、 微 分 方程 
等 方面 有 重要 贡献 . 

马尔 可 夫 出 生 在 莫斯科 东南 的 梁 赞 (Ryazan), 17 岁 时 
独立 发 现 了 一 种 线性 常 微分 方程 的 解法 , 引起 了 圣彼得堡 大 学 几 位 数学 家 的 注 
E. 1874 年 他 考 入 圣彼得堡 大 学 数学 系 , 1878 年 毕业 并 留 校 任教 , 1884 年 获 博 
士 学 位 , 导师 是 圣彼得堡 学 派 领袖 、 著 名 数学 家 切 比 雪夫 . 此 后 马尔 可 夫 一 直 
在 圣彼得堡 大 学 任教 . 马尔 可 夫 在 早期 主要 是 沿 着 切 比 雪夫 开创 的 方向 ,改进 
和 完善 了 大 数 定 律 和 中 心 极 限定 理 , 但 他 最 重要 的 工作 无 疑 是 开辟 了 随机 过 程 
这 个 领域 . 他 在 1906 一 1912 年 间 提 出 了 马尔 可 夫 链 , 开创 了 对 马尔 可 夫 过 程 的 
研究 . 现实 世界 里 小 到 分 子 的 布朗 运动 、 大 到 传染 病 流 行 过 程 , 马尔 可 夫 过 程 
几乎 无 所 不 在 . 在 他 的 名 著 《 概 率 演算 》 中 , 马尔 可 夫 是 以 普希金 的 长 诗 《 时 
甫 根 尼 。 奥 涅 金 》 中 元 、 辅 音字 母 变 化 的 规律 为 例 来 展示 马尔 可 夫 链 的 性 质 . 
马尔 可 夫 决 策 过 程 是 马尔 可 夫 过 程 与 确定 性 动态 规划 的 结合 , 基本 思想 在 二 十 
世纪 五 十 年 代 出 现 , 此 时 马尔 可 夫 已 去 世 三 十 多 年 了 . 

马尔 可 夫 的 儿子 也 叫 安 德 烈 。 安 德 烈 维 奇 。 马 尔 可 夫 (1903 一 1979), 也 是 
著名 数学 冢 , 数理 逻辑 中 的 “ 蕊 尔 可 夫 原 则 ”(Markov Principle). “马尔 可 去 
规则 ” (Markov Rule), 理论 计算 机 科学 中 图 灵 完 备 的 “马尔 可 夫 算 法 ”等 , 是 
以 小 马尔 可 夫 的 名 字 命名 的 . BRYA PKR - RRMA A. OK 
可 夫 (1871 一 1897) 也 是 一 位 数学 家 ，“ 马 尔 可 去 兄弟 不 等 式 ” 就 是 以 他 和 哥哥 
安 德 烈 的 名 字 命名 的 . 


常 直 接 用 工 表示 单位 阵 . 


A 矩阵 
Al 基本 演算 


记 实 算 阵 A ce R 第 1 行 第 7 了 7 列 的 元 素 为 (A)i = Aig. FEB A 的 转 
$ (transpose) WX AT, (AT)i = 4 BR, 


(A + B)! = AT + BT, (A.1) 
(AB) = BTA". (A.2) 


XI TIERE A c€ R™*", Æ m = n MWERA n TE. H In KR n EARE, 方 阵 
A WERE AW! HR AA = ATA =I 不 难 发 现 ， 


(A ) ”1 (A7*)* (A.3) 
(AB) = BHA! . (A.4) 


Fn WAM A, 它 的 迹 (trace) 是 主 对 角 线 上 的 元 素 之 和 , A tr(A) = 
oe Au. 迹 有 如 下 性 质 : 


tr(AT) = tr(A), (A.5) 
tr(A + B) = tr(A) + tr(B) , (A.6) 
tr(AB) = tr(BA) , (A.7) 
tr(ABC) = tr(BCA) = tr(CAB) . (A.8) 


n br Ah A 的 行列 式 (determinant) 定 义 为 


det(A) = par(o) Ajo, A203 - - - Anon ; (A.9) 

FTESn 
FLAS, 为 所 有 nn 阶 排 列 (permutation) 的 集合 , par(o) 的 值 为 —1 或 十 1 取决 
F o = (01,02,...,0n) 为 奇 排列 或 侦 排 列 , 即 其 中 出 现 降 序 的 次 数 为 奇数 或 
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偶数 , 例如 (1,3,2) 中 降序 次 数 为 1, (3,1,2) 中 降序 次 数 为 2. 对 于 单位 阵 , 有 
det(I) = 1. 对 于 2 阶 方 阵 , 有 


Ai Aj2 


det(A) = det ( 
Aa, A22 


| = 4114o2a 一 412421 . 


n 除 方 阵 A 的 行列 式 有 如 下 性 质 : 


det(cA) = cn det(A) , (A.10) 
det(AT) = det(A) , (A.11) 
det(AB) = det(A) det(B) , (A.12) 
det(A7~') = det(A)™ , (A.13) 
det(A”) = det(A)” . (A.14) 


HERE A c IR™*<" 的 Frobenius 范 数 定义 为 


mo n Aa 
Alle = (tr(ATA) = [5 (A.15) 
i=l j=1 
容易 看 出 , 矩阵 的 Frobenius Ji A ON EA E RESE I I) EA AY Le 范 数 . 


A.2 导数 


In] a 相对 于 标量 x 的 导数 (derivative)， 以 及 并 相对 于 a 的 导数 都 是 问 
E, 其 第 i 个 分 量 分 别 为 


Oa Oa; 
(3), ~ Ox? (A.16) 
(Sa) i 加 Oa; | (A.17) 
类 似 的 , 矩阵 A 对 于 标量 z 的 导数 , 以 及 工 对 于 A 的 导数 都 是 矩阵 , 其 第 


i 行 第 7 了 7 列 上 的 元 和 聚 分 别 为 


& - 5 (A.18) 
ij 
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Ox Ox 
Gon E OAs; a, 


对 于 函数 f(z), 假定 其 对 向 量 的 元 素 可 导 , 则 f(x) 关于 z 的 一 阶 导 数 是 
一 个 向 量 , 其 第 i 个 分 量 为 


welon an, (A.20) 


f(a) RF x AY SBA aK A A PRE BE (Hessian matrix) — 7 Be, 其 第 i 
行 第 7 列 上 的 元 素 为 


2 
(V*f (x)),, E —— i (A.21) 


回 量 和 和 矩阵 的 导数 满足 乘法 法 则 (product rule) 


a 相对 于 z 为 常 向 量 . Or'a Bal'zx 


“ie Oe uae) 
OAB OA OB | 


HH ATIA =I All sQ(A.23), BERLE Sen] RANA 


ðA! OA | 
= -ATI AI., A.24 
Ox Or ( ) 


a RAF A as et ee FEE A TR, 则 有 


dtr(AB) | 


OA;; — Dji : (A.25) 
Otr(AB) rT 
一 5A “一 BI. (A.26) 
进而 有 
Otr(ATB) | 
Otr(A) _ 
T 

o tr( ABA ) = A(B + B”). (A.29) 


DA 
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机 器 学 习 中 W 通常 是 
x} ARAB PE, 


常 将 奇异 值 按 降 序 排列 
以 确保 于 的 唯一 性 . 


当 A 为 对 称 正定 矩阵 
时 ,奇异 值 分 解 与 特征 值 
分 解 结果 相同 . 


由 式 (A.15) 和 (A.29) 有 


AIAI? _ Otr(AAT) _ 


2A . (A.30) 


OA OA 


链 式 法 则 (chain rule) 是 计算 复杂 导数 时 的 重要 工具 . 简单 地 说 , er PRI S 
Æ g 和 的 复合 , BY f(x) = 9 (h(x)), WA 


Of(7) _ Og (R(T))  Oh(x) © 


Or Oh(zx) Ox eh) 
例如 在 计算 下 式 时 , 将 Az -已 看 作 一 个 整体 可 简化 计算 : 
2 (Aw — b)"W(Azx — b) = aaa) . 2W (Aa — b) 
= 2ATW(Aax — b). (A.32) 
A.3 奇异 值 分 解 
任意 实 矩 阵 A <e RYS 都 可 分 解 为 
A=U2ZV! ， (A.33) 


其 中 , U e R™™*™ 是 满足 UTU = I H m AE (unitary matrix); V € R"*” 
EWE VIV = I HJ n Bee D eR" Hem x n WIEBE, 其 中 (D)u = cr 
且 其 他 位 置 的 元 素 均 为 0, o; 为 非 负 实数 且 满 足 cl Sop 2... 20. 


式 (A.33) 中 的 分 解 称 为 奇异 值 分 解 (Singular Value Decomposition, 简称 
SVD), FE U 的 列 问 量 uw; E R” PKA A 的 左 奇 异同 量 (left-singular vector), 
V AA ee v; € R” 称 为 A 的 右 奇 异同 量 (right-singular vector), oi 称 为 奇异 
值 (singular value). 和 矩阵 A 的 秩 (rank) 就 等 于 非 雯 奇异 值 的 个 数 . 

奇 弄 值 分 解 有 广泛 的 用 途 , 例如 对 于 低 秩 和 矩阵 近似 (low-rank matrix ap- 
proximation) [A] Ml, 给 定 一 个 秩 为 > 的 矩阵 A, 欲求 其 最 优 k PRUE SEE A, 
k <r, 该 问题 可 形式 化 为 


min ||A—Als (A.34) 
AEcR™mT*n 


s.t. rank(A)=k. 


函数 等 值 线 与 约束 曲面 
相 切 ， 

可 通 讨 反 证 法 证 明 : 车 
梯度 Vilet) SHRED 
不 正 变 ， 则 仍 可 在 约 东 曲 
面 上 移动 该 点 使 函数 值 进 
一 步 下 降 ， 


对 等 式 约束 ， 入 可 能 为 
正 也 可 能 为 负 . 
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奇异 值 分 解 提 供 了 上 述 问 题 的 解析 解 : 对 和 矩阵 A 进行 奇异 值 分 解 后 , RE 

阵 E 中 的 7 一 上 个 最 小 的 奇异 值 置 零 获 得 矩阵 Dy, 即 仅 保 留 最 大 的 大 个 奇异 
值 , 则 

A, = Uz, Vi (A.35) 


就 是 式 (A.34) 的 最 优 解 , 其 中 Uk 和 Vi 分 别 是 式 (A.33) 中 的 前 k 列 组 成 的 矩 
Me. 这 个 结果 称 为 Eckart-Young-Mirsky 定理 . 


B 优化 
B.1 拉 格 朗 日 乘 子 法 
PREH ITY (Lagrange multipliers) 是 一 种 寻找 多 元 函数 在 一 组 约束 下 
的 极 值 的 方法 . 通过 引入 拉 格 天 日 乘 子 , 可 将 有 a 个 变量 与 上 个 约束 条 件 的 最 
优化 问题 转化 为 具有 a 十 个 变量 的 无 约束 优化 问题 求解 . 
先 考 虚 一 个 等 式 约束 的 优化 问题 . 假定 x 为 a SE I Be, AK SR oe 的 某 个 取 
值 z*, 使 目标 函数 f(x) 最 小 且 同 时 满足 g(z) = 0 的 约束 . 从 几何 角度 看 , 该 问 
题 的 目标 是 在 由 方程 g(a) = 0 确定 的 a 一 1 维 曲 面 上 寻找 能 使 目标 函数 f(x) 
最 小 化 的 点 . 此 时 不 难得 到 如 下 结论 : 
e 对 于 约束 曲面 上 的 任意 点 Zw, 该 上 的 梯度 Vo(ac) EXTA R HH; 
e 在 最 优点 a*, 目标 图 数 在 该 点 的 梯度 Vf(x*) 正 交 于 约束 曲面 . 


由 此 可 知 , 在 最 优点 z*, 如 附 图 B.1 Bras, 梯度 Vgl) AV f(a) 的 方 同 必 相 同 
或 相反 , 即 存在 入 关 0 使 得 


Vjz ) 二 和 AV9(zZ ) =0, (B.1) 
A PRA BLE BAA He. 定义 拉 格 表 日 函数 

L(æ, 和) = f(x) + Ag(@) ， (B.2) 
不 难 发 现 , 将 其 对 oc 的 偏 导 数 Vee D(a, A) 置 零 即 得 式 (B.1), 同时 , 将 其 对 入 的 


Wri BV L(x, A) 置 零 即 得 约束 条 件 g(x) = 0. FÆ, 原 约 东 优化 问题 可 转化 
为 对 拉 格 朗 日 函数 L(x, 入 ) 的 无 约束 优化 问题 . 
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Vale) J 


a 


(a) FRAR (b) 不 等 式 约束 
附 图 B. 1 拉 格 朗 日 乘 子 法 的 几何 含义 : 在 (a) 等 式 约束 g(x) 一 0 或 (b) 不 等 式 约束 


g(x) <0 F, 最 小 化 目标 函数 f(x). 红色 曲线 表示 glx) = 0 构成 的 曲面 , 而 其 围 成 的 
[Aa ERRAT g(x) < 0. 


现在 考虑 不 等 式 约 束 g(a) < 0, 如 附 图 B. 1 所 示 , JOIN ef x* 或 在 
g(a) < 0 的 区 域 中 , 或 在 边界 glx) = 0 E. MF glx) < 0 的 情形 , AR 
g(x) 三 0 不 起 作用 , 可 直接 通过 条 件 Y (xe) = 0 来 获得 最 优点 ; 这 等 价 于 将 入 
置 零 然后 对 Vell, 入) 置 零 得 到 最 优点 . glx) = 0 的 情形 类 似 于 上 面 等 式 约 
PRA STAT, (Ae CERN ze, 此 时 YY 了 f(zw*) 的 方 同 必 与 Yg(z*) 相反 , 即 存 在 常数 
入 二 0 使 得 Vf(z*) + AV g(a") = 0. 整合 这 两 种 情形 , 必 满 足 Xg(z) = 0. 因此 ， 
在 约束 g(x) <0 下 最 小 化 f(a), 可 转化 为 在 如 下 约束 下 最 小 化 式 ( 了 .2) 的 拉 格 
BH H PAŽI: 

g(x) < 0; 
入 三 0 1 (B.3) 


Ag(ax) = 0. 


式 (B.3) 称 为 Karush-Kuhn-Tucker (人 简称 KKKT) 条 件 . 


上 上 述 做 法 可 推广 到 多 个 约束 . 考虑 具有 m 个 等 式 约束 和 nn 个 不 等 式 约束 ， 
ALay 47 Sk D C R 非 空 的 优化 问题 


min f(a) (B.4) 
s.t. Agia) =O (@=—1,...,17) , 


g; sr) <0 (7 =1,...,n). 


S| A dies BA ES A = (A1, A2,---, Am)? FI p = (p11, wa, An) 上 相应 的 拉 格 


在 推导 对 偶 问 题 时 ， 常 
if it Jf 42 46 BA OA ORR 
L(x, `; p) F ae RFS 
导数 为 0, 来 获得 对 偶 函 数 
的 表达 形式 . 
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朗 日 函数 为 
L(æ, A, p) = f(x) + > Aihi(Œ) + X __ ujgj(®) ， (B.5) 
i=1 1 一 1 

由 不 等 式 约束 引入 的 KKT REG = 1,2,...,n)A 
gj (x) < 0; 
Hj 2O; (B.6) 
Hig9i(T) =0. 


— PE TEA Tr] eT EA A BA TS i RE RG BE, 即 “ 主 问题 ”(primal problem) ll 
“对 偶 问 题 ”(dual problem). 对 主 问题 (B.4), 基于 式 (B.5), HABA “IHE 
Z” (dual function) T : R™ x R” > RELA 


D(A, u) = inf L(x, A, u) 


t J 


=n (rœ + 3 Aihilæ) + ; [595 =) i (B.7) 
i=l = 


42 ED AL M(B.) a 7TH, WES u > 0 FA EE 


> Aihi(e) + > 119j(z) <0, (B.8) 
1=1 了 一 1 
进而 有 
P(A u) = inf L(æ, A, u) < LE,N, u) < f(E). (B.9) 


若 主 问题 (B.4) 的 最 优 值 为 p*, WIE pp = 0 FA BBE 
D(A, u) <p", (B.10) 
即 对 侦 函 数 给 出 了 主 问题 最 优 值 的 下 界 . 显然 ， 这 个 下 界 取决 于 pj 和 入 的 值 . 


于 是 , 一 个 很 自然 的 问题 是 : 基于 对 偶 函 数 能 获得 的 最 好 下 界 是 什么 ”这 就 引 
出 了 优化 问题 
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这 称 为 Slater 条 件 . 


非 标准 二 次 规划 问题 中 
可 以 和 包含 等 式 约 东 ， 注意 
到 等 式 约 束 能 用 两 个 不 等 
式 约 东 来 代替 ; 不 等 式 约 
来 可 通过 增加 松弛 变量 的 
方式 转化 为 等 式 约束 . 


max r(A, pw) st. wed. (B.11) 
H 


s\(B.11) st Æ È fA] W (B.4) HIX} 1R fa ea, 其 中 入 和 PR “REE” (dual 
variable). 无 论 主 问题 (了 .4) 的 凸 性 如 何 , ON) ea (B11) ae E r tb I) eh. 

考虑 式 (B.11) 的 最 优 值 d*, 显然 有 d* < p*, 这 称 为 “ 弱 对 个 性 ” (weak 
duality) KSL; 47 d* = p*, WPA “TOPE” (strong duality) BIZ, 此 时 由 对 
偶 问 题 能 获得 主 问 题 的 最 优 下 界 . 对 于 一 般 的 优化 问题 , SR ONT 1S AE GY AS A. 
但 是 , 奉 主 问题 为 凸 优化 问题 , 如 式 (B.4) 中 f(x) M gj (x) WAC RAL, hil) 为 
仿 射 函数 , 且 其 可 行 域 中 人 至少 有 一 点 使 不 等 式 约 束 严 格 成 站 , 则 此 时 强 对 侦 性 
成 立 . 值得 注意 的 是 , 在 强 对 偶 性 成 立时 , 将 拉 格 天 日 函数 分 别 对 原 变 量 和 对 侦 
变量 求 导 , 再 并 令 导 数 和 等于零 , 即 可 得 到 原 变 量 与 对 偶 变 量 的 数值 关系 . 于 是 ， 
对 偶 问 题解 决 了 , 主 问题 也 就 解决 了 . 
B.2 二 次 规划 

IRM R) (Quadratic Programming, 简称 QP) 是 一 类 典型 的 优化 问题 , 包 
括 凸 二 底 优 化 和 非 凸 二 次 优化 . 在 此 类 问题 中 , 目标 函数 是 变量 的 二 次 函数 ， 而 
约束 条 件 是 变量 的 线性 不 等 式 . 

假定 变量 个 数 为 d, 约束 条 件 的 个 数 为 m, 则 标准 的 二 次 规划 问题 形 如 


1 
min 57 Qa 十 ez (B.12) 
n | 


其 中 z 为 a 维 向 量 , Q € ROX ASEM PALE, A c RI A SERB, b e R™ 和 
c E R? 为 实 向 量 , Ax < b 的 每 一 行 对 应 一 个 约束 . 

E Q AFEEF, 则 式 ( 了 .12) 目 标 函 数 是 凸 函 数 , 相应 的 二 次 规划 是 四 
二 次 优化 问题 ; 此 时 若 约 束 条 件 Az < 5b 定义 的 可 行 域 不 为 空 , H H ERR AAE 
此 可 行 域 有 和 下界, 则 该 问题 将 有 全 局 最 小 值 . FF Q 为 正定 和 矩阵, 则 该 问题 有 唯 
一 的 全 局 最 小 值 . E Q ASF IE Ee FEM, 则 式 (B.12) 是 有 多 个 平稳 点 和 局 部 极 小 
点 的 NP 难 问题 . 

T H AJ R R AE y B Wi Ek Y (ellipsoid method), A A YE (interior 
point) W Ar#% H H YA (augmented Lagrangian)、 梯 度 投影 法 (gradient pro- 
jection) 等 . £ Q 为 正定 矩阵 , WAMA — Oe fe) a) RERE E E R 
间 内 求解 . 
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B.3 半 正 定 规 划 


半 正 定 规 划 (Semi-Definite Programming， 简 称 SDP) 是 一 类 凸 优化 问题 ， 
其 中 的 变量 可 组 织 成 半 正 定 对 称 和 矩阵 形式 , 且 优 化 问题 的 目标 函数 和 约束 都 是 


给 定 d x d 的 对 称 和 矩阵 和 六 、C， 
d 
C-X=) Y Cy Xi, , (B.13) 
i=1 j=1 


# A; (i = 1,2,...,m) 也 是 d x d 的 对 称 矩 阵 , bi (i = 1,2,...,m) 为 m 个 实数 ， 


WWF TE ERRI fa] ea An 
min C.X (B.14) 
w 
s.t. Ai -X =b; , i= 1,2,...,m 
X>OARTK FER. x>o. 


“TE xe WY S Be PEA AB Be PE EY) H i PRAM ZY RR, 但 半 正 定 规 划 中 的 
约束 X > 0 是 一 个 非 线 性 、 非 光滑 约束 条 件 . 在 优化 理论 中 , 半 正 定 规划 具有 
一 定 的 一 般 性 , 能 将 儿 种 标准 的 优化 问题 (如 线性 规划 、 二 次 规划 ) 统 一 起 来 . 


常见 的 用 于 求解 线性 规划 的 内 点 法 经 过 少许 改造 即 可 求解 半 正 定 规划 问 
jel, 但 半 正 定 规 划 的 计算 复杂 度 较 高 , 难以 直接 用 于 大 规模 问题 . 
B.4 梯度 下 降 法 


梯度 下 降 法 (gradient descent) 是 一 种 剃 用 的 一 阶 (first-order) 优 化 方法 , 是 
一 从 方法 仅 使 用 目标 梧 求解 无 约束 优化 问题 最 简单 、 最 经 典 的 方法 之 一 . 


数 的 一 阶 寻 数 ， 不 利用 其 
hate 考虑 无 约束 优化 问题 ming f(a), 其 中 f(z) 为 连续 可 微 函数 . 若 能 构造 一 
个 厅 列 x°, ee oe …. 满足 


f(a**") < f(a), t= 0,1,2,... (B.15) 
则 不 断 执 行 该 过 程 即 可 收敛 到 局 部 极 小 点 . CAL SE (B.15), 根据 泰勒 展 式 有 


f(a + Ax) ~ f(a) + Aa! Vf (a) ， (B.16) 


408 


每 步 的 步 长 可 不 同 . 


L-Lipschitz#® tł Æ 48 3} 


于 任意 x, AERA LIE 


得 ||Vf(x)|| < L RZ. 


束 解 极 大 值 问 题 时 亦 称 


“坐标 上 升 法 ” 


nate ascent). 


(coordi- 


于 是 , KIE f(z + As) < f(a), 可 选择 
AET (B.17) 


其 中 步 长 y REP. 这 就 是 梯度 下 降 法 . 

E HERA f (ac) 满足 一 些 条 件 , 则 通过 选取 合适 的 步 长 , 就 能 确保 通过 榜 
度 下 降 收 敛 到 局 部 极 小 点 . 例如 大 f (ac) 满足 L-Lipschitz 条 件 , 则 将 步 长 设置 
AV 1/(2L) 即 可 确保 收敛 到 局 部 极 小 点 . 当 目 标 函 数 为 凸 函 数 时 , 局 部 极 小 点 研 
对 应 看 函数 的 全 局 最 小 点, 此 时 村 上 度 下 降 法 可 人 确保 收 合 到 全 局 最 优 解 . 

当 目 标 函 数 f (ac) 二 阶 连 续 可 第 时 , 可 将 陈 (B.16) 和 七 换 为 更 精确 的 二 阶 雁 勒 
展 式 , 这 样 就 得 到 了 牛顿 法 (Newton's method). 牛顿 法 是 典型 的 二 阶 方法 , 其 
连 代 轮 数 远 小 于 梯度 下 降 法 . 但 牛顿 法 使 用 了 二 阶 导 数 V“Fm), AIA 
涉及 到 海 森 矩阵 (A.21) 的 求 道 , 计算 复杂 度 相 当 高 , 尤其 在 高 维 问 题 中 几乎 不 
可 行 . 看 能 以 较 低 的 计算 代价 寻找 海 和 森 矩 阵 的 近似 闭 窍 阵 , 则 可 显著 降低 计算 
开销 , 这 就 是 拟 牛 顿 法 (quasi-Newton method). 

B.5 坐标 下 降 法 

坐标 下 降 法 (coordinate descent) 是 一 种 非 梯度 优化 方法 , E FEREZP IAIN P 
沾 一 个 坐标 方 同 进行 搜索 , 通过 循环 使 用 不 同 的 坐标 方 癌 来 达到 目标 函数 的 局 
部 极 小 值 . 

不 妨 假设 目标 是 求解 函数 f(x) 的 极 小 值 , 其 中 æ = (£1, £2,..., £a)! E€ 
R? 是 一 个 d 维 向 量 ， 从 初始 点 z0 开始 ,坐标 下 降 法 通过 迭代 地 构造 序列 
z0, alo? .来 求解 该 问题 , at) 的 第 i 个 分 量 zi 构造 为 


= arg min lit ee a ai Y, "AIRT ee x) (B.18) 
yeR 
通过 执行 此 操作 , 显然 有 
f(x°) > f(z") > f(x") >... (B.19) 


与 梯度 下 降 法 类 似 , 通过 迭代 执行 该 过 程 , 序列 oe, oe’ at, 能 收敛 到 所 期 望 
的 局 部 极 小 点 或 驻 扩 (stationary point). 

坐标 下 降 法 不 需 计 算 目 标 函 数 的 梯度 , 在 每 步 迭 代 中 仅 需 求解 一 维 搜索 问 
题 , 对 于 某 些 复杂 问题 计算 较为 简便 . 但 知 目 标 函 数 不 光 请, 则 坐标 下 降 法 有 可 
能 陷入 非 驻 点 (non-stationary point). 
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C 概率 分 布 
C.1 常见 概率 分 布 
本 节 价 要 介绍 儿 种 津 见 概率 分 布 . 对 于 每 种 分 布 , 我 们 将 给 出 概率 密度 函 
WORE EL FÆ var[-] 和 协 方差 cov[, -] 等 几 个 主要 的 统计 量 . 
C.1.1 均匀 分 布 


ik Bk eh o> IJa (uniform distribution) 是 关于 定义 在 区 间 [a,b] (a < b) 上 连续 弯 
A. 量 的 简单 概率 分 布 , 其 概率 密度 函数 如 附 图 C.1 所 示 . 


附 图 C. 1 均匀 分 布 的 概率 密度 函数 


1 


p(x | a,b) = U(x | a,b) = bog? (C.1) 

El] = =, (C.2) 
(5— a)? | 

var|x| = -a (C.3) 


不 难 发 现 , 若 变量 x 服从 均匀 分 布 U(z | 0,1) Ha < b, Wat (b—a)zx IR 
从 均匀 分 布 U(x | a,b). 
C.1.2 伯 努 利 分 布 


以 瑞士 数学 家 雅 各 布 . {4 33 Fl 3} 4 (Bernoulli distribution) 是 关于 布尔 变量 x E {0,1} 的 概率 分 
tå 4% #) (Jacob Bernoulli, vie bss Be oe sd 
1654-1705) 49% FS, AN, 其 连续 参数 pu E [0,1] 表 不 变量 r = 1 的 概率 . 


P(x | p) = Bern(z | p) = p” (1 — p) ; (C.4) 
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Elz| = p ; (C.5) 
var|x| = w(1 — p). (C.6) 


C.1.3 二 项 分 布 


二 项 分 布 (binomial distribution) 用 以 描述 N 次 独立 的 伯 努 利 实验 中 有 m 
PR AMD (BY ao = 1) 的 概率 , 其 中 每 次 们 努 利 实验 成 功 的 概率 为 1. © [0, 1]. 


N 
P(m | N,) = Bin(m| Na y) u — p)N— ; (C.7) 
Elz] = Nu ; (C.8) 
varlz| = Na(l — u). (C.9) 
对 于 参数 u — RM “4 N = 1 时 , 二 项 分 布 退 化 为 伯 努 利 分 布 . 


的 共 斩 先 验 分 布 是 贝塔 分 
Ay, ATAA C.2. 


C.1.4 多 项 分 布 


若 将 伯 努 利 分 布 由 单 变量 扩展 为 ad 维 向 量 x, 其 中 zz E {0,1} 且 入 2 r; = 
1, 并 假设 x; 取 1 的 概率 为 ui € [0,1], YE ji = 1, 则 将 得 到 离散 概率 分 布 


d 

P(x | u) = | [e : (C.10) 
t=1 

var[zil = Hai(L — Hi) ; (C.12) 

cov(25, 24] = I = i] pu - (C.13) 


在 此 基础 上 扩展 二 项 分 布 则 得 到 多 项 分 布 (multinomial distribution), 它 
ATAR a SARR 描述 了 在 N 次 独立 实验 中 有 ms 次 zi = 1 的 概率 . 


的 共 斩 先 验 分 布 是 狄 利 
LETA., KG AR BI 
C.2. P(m1,m2,...,ma| N, p) = Mult(mi, mo,...,ma | N, p) 
d 
= ~- ia C.14 
77211 mg! ras mai lie i ( ) 


E[m,;] = N Hi ; (C.15) 
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var|m,;| = Nia(l — Hi) ; (C.16) 
cov|m,;,mi| = —N hj hi . (C.17) 


C.1.5 贝塔 分 布 


贝塔 分 布 (Beta distribution) ER TESE u c [0,1] 的 概率 分 布 , 它 由 
两 个 参数 a 0 和 4b > 0 确定 , 其 概率 密度 函数 如 附 图 C.2 所 示 . 


() 0.5 10 p 


附 图 C. 2 贝塔 分 布 的 概率 密度 函数 


plu | a, b) Beta( yu | a, b) = OTe Ee Ti 

~ zayl 一 有 (C.18) 
al eer (C.19) 
ab | 
var[u] = (a+b)2(a+b+1) ; (C.20) 

EAT (a) A Gamma Až 
(a) = / tlertdt ， (C.21) 

0 
B(a,b) W Beta 函数 

NG) aes (C.22) 


T(a+b) © 
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以 德国 数学 家 狄 利 克 雷 
(1805 一 1859) 的 名 字 命 名 . 


ao 为 标准 差 . 


当 a = 二 b= 二 1 时, 贝塔 分 布 退 化 为 均 习 分 布 . 


C.1.6 JAF BAH 

狄 利克 雷 分 布 (Dirichlet distribution) 是 关于 一 组 a 个 连续 变量 u; € [0,1] 
的 概率 分 布 , STS ji = 1. $ u = (m; 2s -. ; Ha), 参数 a = (01; 02;...; aa), 
a, > 0, & = DE] Qi. 


_ = Tâ) T oai. | 

p(w | x) = Dir(y | a) = T(a1)... F(a) [Tv E (C.23) 
Elm] = = ; (C.24) 
varlin] = NET: (C.25) 
cov[p3, mi] = (C.26) 


“d= 2 时 , 狄 利克 和 雷 分 布 退 化 为 贝塔 分 布 . 


C.1.7 高 斯 分 布 
高 斯 分 布 (Gaussian distribution) J EKES fi (normal distribution), 是 应 


对 于 单 变量 r Ee (一 00, co), 高 斯 分 布 的 参数 为 均值 u Ee (一 co, co) AN 
a? > 0. 附 图 C.3 给 出 了 在 几 组 不 同 参数 下 高 斯 分 布 的 概率 密度 函数 . 


_ ,2 
p(x | 1,02) =N | mo?) = a -人 和 | e 
E[r] = p ; (C.28) 

var[z] = o° . (C.29) 


对 于 d 维 向 量 x, 多 元 高 斯 分 布 的 参数 为 d 维 均值 向 量 e 和 a x a 的 对 称 
正定 协 方差 矩阵 D. 


p(x | p, =) = N(x | u, ©) 


| exp 1-ic = u) ET! (x 一 »)} ; (C.30) 


— \/(2r)4det(D) 
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Nz | 2,0.5) 


MEC. 3 融 斯 分 布 的 概率 获 度 函数 


Ela] = u ; (C.31) 
cov[2] =£. (C.32) 


C.2 £485 7h 


假设 变量 zx 服从 分 布 P(x | 日 ), 其 中 日 为 参数 , X = {x1,2x2,...,2m} A 
© z 的 观测 样本 , 假设 参数 日 服从 先 验 分 布 H(B). 若 由 先 验 分 布 I(B) 和 抽样 
分 布 P(X | 0) 决定 的 后 验 分 布 F(O | X) 与 I(B) 是 同 种 类 型 的 分 布 , 则 称 先 
验 分 布 I( 昌 ) 为 分 布 P(x | ©) 或 P(X | O) WHH FH (conjugate distribution). 


例如 , 假设 z ~ Bern(z | y), X = {21,22,...,%m} 为 观测 样本 , 为 观测 
样本 的 均值 , y ~ Beta(u | a,b), 其 中 a,b 为 已 知 参 数 , W p 的 后 验 分 布 


F(u | X) « Beta(y | a,b) P(X | u) 
— Ha (1 ile mi _ pam mI 
7 1 
= Bla+mz,b+m— mz) 


= Beta(y | a’, b") , (C.33) 


RN ioe 


亦 为 贝塔 分 布 , 其 中 a’ = a + mz, b 一 b 十 m 一 mz, 这 意味 着 贝塔 分 布 与 伯 努 
这 里 仅 考 虑 癌 斯 分 布 方 “ 利 分 布 共 辆 . 类 似 可 知 , 多 项 分 布 的 共 辆 分 布 是 狄 利 殉 雷 分 布 , 而 高 斯 分 布 的 共 


差 已 知 、 均 值 服从 先 验 的 4) 4045s: SRA. 
情形 . 
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这 里 假设 两 个 分 布 均 为 
连续 型 概率 分 布 ; 对 于 离 
散 型 概率 分 布 , 只 需 将 定 
义 中 的 积分 替换 为 对 所 有 
离散 值 遍 历 求 和 - 


度量 应 满足 四 个 基本 ,性 
质 , 秦 见 9.3 节 . 


附 录 


先 验 分 布 反映 了 某 种 先 验 信息 , 后 验 分 布 既 反映 了 先 验 分 布 提供 的 信息 、 

又 反映 了 样本 提供 的 信息 . 当先 验 分 布 与 抽样 分 布 共 轿 时 , 后 验 分 布 与 先 验 分 
布 属 于 同 种 类 型 , 这 意味 着 先 验 信 息 与 样本 提供 的 信息 具有 茶 种 同一 性 . 于 
是 , 硅 使 用 后 验 分 布 作 为 进一步 抽样 的 先 验 分 布 , 则 新 的 后 验 分 布 仍 将 属于 同 
种 类 型 . 因此 , 共 思 e 分 布 在 不 少 情形 下 会 使 问题 得 以 人 简化. 例如 在 式 (C.33) 的 
例子 中 , 对 服从 伯 努 利 分 布 的 事件 X 使 用 贝 培 先 验 分 布 , 则 贝塔 分 布 的 参数 值 
a 和 日 可 视 为 对 伯 努 利 分 布 的 真实 情况 (事件 发 生 和 不 发 生 ) 的 预 估 . 随 着 “证 
据 ”( 样 本 ) 的 不 断 到 来 , 贝塔 分 布 的 参数 值 从 a, b 变化 为 a+ rm 元 ,十 m- mz, 
H a/(a + b) 将 随 着 m 的 增 大 趋 近 于 们 努 利 分 布 的 真实 参数 值 z. 显然 , 使 用 共 
HEC ZA, 只 需 调整 a A b 这 两 个 预 估 值 即 可 方便 地 进行 模型 更 新 . 


C.3 KLEE 


KL#x 2 (Kullback-Leibler divergence), JSPR FH XT HA (relative entropy) 2k {5 
ABUS (information divergence), 可 用 于 度量 两 个 概率 分 布 之 间 的 差异 . 给 定 两 
个 概率 分 布 PFA Q, 二 者 之 间 的 KL 散 度 定义 为 


KL(PIQ) = f ” p(x) log Pe a | (C.34) 


其 中 p(x) FI q(x) HA P FO Q 的 概率 密度 函数 . 
KLAR AL SESE, 即 


KL(P||Q) 20, (C.35) 
“4 HAN P= QW KL(P||Q) = 0. 但 是 , KL 散 度 不 满足 对 称 性 , 即 
KL(P||Q) # KL(Q||P) ， (C.36) 


因此 , KL 散 度 不 是 一 个 度量 (metric) 
若 将 KL 散 度 的 定义 (C.34) 展 开 , 可 得 


KL(P||Q) = f p(x) log p(x)dz 一 f p(x) log q(x)dz 


= —H(P)+ H(P, Q), (C.37) 


其 中 H(P) 为 篇 (entropy), (P,Q) A P Fl Q WAX (cross entropy). 在 信 
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息 论 中 , W 五 (P) 表示 对 来 自己 的 随机 变量 进行 编码 所 需 的 最 小 字 节 数 , 而 交 
LH HP, Q) 则 表示 使 用 基于 Q 的 编码 对 来 自己 的 变量 进行 编码 所 需 的 字 节 
数 ， 因 此, K 工 散 度 可 认为 是 使 用 基于 Q 的 编码 对 来 目 己 的 变量 进行 编码 所 需 
的 “额外 ” 字 节 数 ; 显然 , 额外 字 节 数 必 然 非 负 , 当 且 仅 当 己 = Q 时 额外 字 节 


后 iz 


写作 本 书 的 主因 , 是 2016 年 准备 在 南京 大 学 开设 “机 器 学 习 ” 课 . 十 五 年 前 笔者 曾 主张 开设 此 
课 , 但 那 时 国内 对 机 器 学 习 闻 之 不 多 , 不 少 人 听 到 这 个 名 学 的 第 一 反应 是 “学 习 什 么 机 器 ?” 学 校 估 
计 学 生 兴 趣 不 大 , 于 是 笔者 开设 了 “数据 挖掘 ”这 门 名 字 听 上 去 就 觉得 很 有 用 的 课 . 被 评 为 省 优秀 
研究 生 课 程 后 , 又 给 本 科 生 单 开 了 一 门 “ 数 据 挖 据 导 论 ”. 这 两 门 课 很 受 欢迎 , 选修 学 生 很 多 , 包括 
不 少 外 来 蹦 听 生 . 虽然 课 上 有 一 多 半 其 实在 讲 机 器 学 习 , 但 笔者 仍 一 直 希 望 专 开 一 门 机 器 学 习 课 ， 
因 笔 者 以 为 机 器 学 习 述 时 会 变 成 计算 机 学 科 的 基础 内 容 . 

图 灵 奖 得 主 E. W. Dijkstra 曾 说 “计算 机 科学 并 不 仅 是 关于 计算 机 , 就 像 天 文学 并 不 仪 是 关于 
望远镜 ”. 正如 天 文学 早期 的 研究 关注 如 何 制造 望远镜 , 计算 机 科学 早期 研究 是 在 关注 如 何 令 计 算 
机 运转 . 到 了 今天 , 建造 强大 的 天 文 望远镜 虽 仍 重要 , 但 天 文学 更 要 紧 的 是 “用 ”望远镜 来 开展 研 
3%. 类 似 地 , 计算 机 科学 发 展 至 今 , 也 该 到 了 从 关注 “ 造 ” 计 算 机 转 入 更 关注 “用 ”计算 机 来 认识 
和 改造 世界 的 阶段 , 其 中 最 重要 的 无 疑 是 用 计算 机 对 数据 进行 分 析 , 因为 这 是 计算 的 主要 目的 , 而 
这 就 离 不 开机 器 学 习 . 十 多 年 前 在 国内 某 次 重要 论坛 上 笔者 刚 抛 出 此 观点 就 被 专家 迎头 指 斥 , 但 今 
HRA, 甚至 很 多 计算 机 学 科 外 人 士 都 已 对 机 器 学 习 的 重大 价值 津津 乐 道 , 现在 才 开 设 机 器 学 习 基 
础 课 似 乎 已 有 点 嫌 晚 了 . 

1995 年 在 南大 图 书馆 偶然 翻 看 了 《机 器 学 习 : 一 种 人 工 管 能 途径 》, 这 算是 笔者 接触 机 器 学 习 
的 开始 . 那 时 机 器 学 习 在 国内 问津 者 密 , 甚至 连 科研 人 员 申 请 基金 项 目 也 无 合适 代码 方 回 可 报 . 周 
边 无 专家 可 求教 , 又 因 国 内 科研 经 费 匮乏 而 几 无 国际 交流 , 加 之 学 校 尚 无 互联 网 和 电子 文献 库 , 能 
看 到 的 最 新 文献 仅 是 两 年 前 出 版 且 页 数 不 全 的 某 IEEE 汇 刊 …… 可 谓 举步维艰 , 经 历 的 困惑 和 陷阱 
不 可 胜 数 . 笔者 切身 体会 到 , 入 门 阶段 接触 的 书籍 是 何等 重要 , 对 自学 者 尤其 . 一 本 好 书 能 让 人 少 
走 许多 弯路 , 材料 不 佳 则 后 续 要 花费 数 倍 精力 方 能 纠偏 ， 中 文书 当然 要 国人 自己 来 写 . 虽 已 不 需 靠 
“ 写 书 出 名 ”, 且 深 知 写 教 科 书 极 耗 时 间 精 力 , 但 路 足 后 笔者 仍 决 定 动手 写 这 本 书 , 唯 望 为 初学 者 
We IS AT. 

有 人 说 “一 干 个 人 眼中 就 有 一 干 个 哈姆雷特 ”, 一 个 学 科 何 尝 不 是 如 此 . 之 所 以 不 欲 使 用 市 面 
上 流行 的 教科 书 (主要 是 美文 的 ), 除了 觉得 对 大 多 数 中 国学 生来 说 中 文教 科 书 更 便于 学 习 , 另 一 个 
原因 则 是 希望 从 笔者 自己 的 视角 来 展现 机 器 学 习 . 

2013 年 中 开始 规划 提纲 , 由 此 进入 了 焦躁 的 两 年 . 该 写 哪 些 内 容 、 先 写 什么 后 写 什 么 、 从 哪个 
角度 写 、 写 到 什么 程度 , 总 有 和 干 丝 万 缕 需 考虑 . 及 至 写作 进行 , BAAR, 深 恐 不 慎 误 人 子弟 . 
写 书 难 , 写 教科 书 更 难 . 两 年 下 来 , 甘苦 自 知 . TH: “PFA, 得 乎 其 中 ; 取 乎 其 中 , 得 乎 其 下 ”， 
且 以 顶级 的 态度 , 出 一 本 勉强 入 得 方 家 法 眼 之 书 . 
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本 书 人 贯穿 以 西瓜 为 例 , 一 则 因为 瓜 果 中 笔者 尤 喜 西 瓜 , 二 则 因为 西瓜 在 笔者 所 生活 的 区 域 有 个 
有 趣 的 缠 义 . 朋友 小 聚 、 请 客 吃饭 , 菜 已 全 而 主 未 知 , 或 馈 未 齐 而 人 待 走 , PBEM. 于 是 聪明 人 发 
明了 “ 潜 规 则 ”: 席 终 上 西瓜 . 无 论 整 盘 抑 或 小 碟 , 宾主 见 瓜 至 , 则 心领神会 准备 起 身 ， 缘 大 欢喜 . 
久而久之 , FOS UTE UR. SQ Pea, Sh a. 奋 将 宴席 比 作 (未 来 ) 应 用 系统 , KA LEE AT 
WAR, WI ALAS AA SEW a PET, 它 可 能 不 是 最 “高 大 上 ”的 , 但 却 是 离 不 了 的 、 没 用 上 总 
觉得 不 甘心 的 . 

本 书写 作 过 程 从 材料 搜集 , 到 习题 设计 , 再 到 阅读 校勘 , 都 得 到 了 笔者 的 很 多 和 学生、 同事 和 学 
术 界 朋友 的 支持 和 帮助 , 在 此 谨 列 出 他 们 的 姓名 以 致谢 意 (姓氏 拼音 序 ): 陈 松 灿 , 戴 望 州 , 高 阳 , 高 
尉 , AXA, Bi, 李楠 , 李 武 军 , Se, 钱 超 , EW, ERR, REIS, IRR, AID, AE), 张 利 军 ， 
张 敏 灵 , 朱军 . PRE LAMDA 组 学 生 2015 FSA weet LM, mo. PSPS. eA. Ek 
MY. EE, Migs. SKS IS MAA SAS Bik. 特别 感谢 李楠 把 笔者 简陋 的 手绘 图 转变 
为 精致 的 插图 , 命 扬 帮助 调整 排版 格式 和 索引 , 刘 冲 把 笔者 对 封面 设计 的 想法 具体 表现 出 来 . 

中 国 计 算 机 学 会 终 时 成 就 奖 得 主 、 中 国 科 学 院 院 士 陆 汝 锥 先生 是 我 国人 工 智 能 事业 的 开拓 者 
之 一 , 他 在 1988 年 和 1996 年 出 版 的 《人 工 智能 》( 上 、 下 册 ) 曾 给 予 笔者 很 多 启发 . 承蒙 陆 老师 厚 
爱 在 百 忙中 为 本 书 作 序 , AEE ZS. 陆 老 师 在 序言 中 提出 的 问题 很 值得 读者 在 本 书 之 后 的 进 阶 
学 习 与 研究 中 深思 . 

感谢 清华 大 学 出 版 社 妖 芒 老 师 为 本 书 出 版 所 做 的 努力 . 十 二 年 前 笔者 入 选 国家 杰出 青年 科 
学 基金 时 藤 老 师 即 邀 闭 书 , EA AES. RIO. 十 年 前 “机 器 学 习 及 其 应 用 ”研讨 
会 (MLAJ) 从 陆 汶 铃 院士 秘 始 的 复旦 大 学 智能 信息 处 理 重 点 实验 室 移 师 南 京 , 参 会 人 数 从 复旦 最 初 的 
20 A, 发 展 到 2010 年 400 余人 , 此 后 在 清华 、 复 旦 、 西 电 达 800 余人 ， 今 年 再 回 南 大 竟 至 1300 余 
A, 场面 热烈 . MLA 倡导 “学 术 至 上 、 其 余 从 简 ”, HBC, Bene. 但 即便 如 此 , 仍 有 
很 多 感 兴趣 的 师 生 因 旅 费 不 菲 而 难以 参加 . 于 是 笔者 提议 每 两 年 以 《机 器 学 习 及 其 应 用 》 为 题 出 版 
一 本 报告 选集 以 维 读 者 . 这 个 主意 得 到 了 薛 老师 、 陆 老师 以 及 和 笔者 一 起 长 期 组 织 MLA、 去 年 因 
Jj ZTE AY EER SVT KT sc. 此 类 专业 性 学 术 文 集 销量 不 大 , 出 版 社 多 半 要 贴 钱 . 笔者 曾 跟 藤 老 
师 说 ,， 目 戎 的 第 一 本 中 文书 必 交 由 莅 老 师 在 清华 出 版 , 或 可 各 为 出 版 社 找补 . 转眼 《机 部 学习 及 其 
应 用 》 系 列 已 出 到 第 六 本 , 蕉 老师 或 以 为 十 年 前 是 玩笑 话 , EA A FS RE As AR a. 

最 后 要 感谢 笔者 的 家 人 , 本 书 几 乎 耗 尽 了 两 年 来 笔者 所 有 的 节假日 和 至亲 时 间 . SERNER 
子 常 跑 来 案 边 , 不 是 问 “ 和 爸爸 去 哪儿 ?” 而 是 看 几 眼 然后 问 “ 区 从 你 又 写 了 儿 页 ?” 为 了 给 他 满意 的 
答复 , 笔者 埋头 努力 . 
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